然而,ROUGE-L也存在局限性,即只计入主要顺序词语的匹配,可能忽视其他可行的LCS或较短的共同子序列。比如,“警察杀死了枪手”这个参考句与候选句“枪手 警察 杀死”相比,在ROUGE-L下得到相同的分数,但这并未反映出后者在语序上的偏离。 此外,为了评估整个摘要而非单个句子层面的相似性,ROUGE-L还提供了一个总结级...