1.BLEU原理 Bleu 全称为 Bilingual Evaluation Understudy(双语评估研究),意为双语评估替换,是衡量一个有多个正确输出结果的模型的精确度的评估指标。比较候选译文和参考译文里的 n-gram 的重合程度。多用于翻译质量评估。 可以说是所有评价指标的鼻祖,它的核心思想是比较候选译文和参考译文里的 n-gram 的重合程度,重...
BLEU、ROUGE等评估指标的代码实现方式如下: BLEU: BLEU的计算公式为:BLEU=BP*exp(∑n=1Nwn*logp(n))。 其中,BP是brevitypenalty的缩写,用于修正长度的影响;wn是每个n-gram的权重,一般n最大取4,所以wn=0.25;p(n)是候选文本中长度为n的词组(n-gram)的精确度。 ROUGE: ROUGE是Recall-...
根据n-gram可以划分成多种评价指标,常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n BLEU-1衡量的是单词级别的准确性,更高阶的bleu可以衡量句子的流畅性。 For example: candidate: the cat sat on the mat reference: the cat is on the mat 那么各个bleu的值如下:...
跨语言代码翻译的RAG技术 | 这篇论文提出了一种新的方法来提高Fortran到C++的跨语言代码翻译质量。研究者们通过在检索增强生成(RAG)框架中集成任务特定的嵌入对齐,优化了代码的数学表示,使其在语义和语法上更符合翻译任务的需求。他们利用CodeBLEU指标来评估生成代码的质量,这个指标可以衡量代码的语法和语义正确性。