主要内容

bleuEvaluationScore

用BLEU相似度评分评估翻译或总结

描述

双语评估替补(BLEU)评分算法评估候选文档和参考文档集合之间的相似性。使用BLEU评分来评估文档翻译和摘要模型的质量。

例子

分数= bleuEvaluationScore (候选人参考文献返回指定候选文档与参考文档之间的BLEU相似度得分。该函数计算n-gram之间的重叠候选人而且参考文献对于长度为1到4的n克,权重相等。有关更多信息,请参见蓝色的分数

例子

分数= bleuEvaluationScore (候选人参考文献名称=值使用一个或多个名称-值参数指定其他选项。

例子

全部折叠

方法创建标记化文档数组并提取摘要extractSummary函数。

STR = [“狐狸跳过了狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”“懒狗看见一只狐狸在跳。”“似乎有动物在跳其他动物。”“有敏捷的动物和懒惰的动物”];documents = tokenizedDocument(str);summary = extractSummary(文档)
那只敏捷的棕色狐狸跳过了那只懒惰的狗。

指定引用文档为tokenizedDocument数组中。

STR = [“敏捷的棕色动物跳过了懒惰的狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”];references = tokenizedDocument(str);

计算摘要和参考文档之间的BLEU得分bleuEvaluationScore函数。

分数= blueevaluationscore(摘要,参考资料)
得分= 0.7825

这个分数表明了相当好的相似性。BLEU分数接近1表示相似性很强。

方法创建标记化文档数组并提取摘要extractSummary函数。

STR = [“狐狸跳过了狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”“懒狗看见一只狐狸在跳。”“似乎有动物在跳其他动物。”“有敏捷的动物和懒惰的动物”];documents = tokenizedDocument(str);summary = extractSummary(文档)
那只敏捷的棕色狐狸跳过了那只懒惰的狗。

指定引用文档为tokenizedDocument数组中。

STR = [“敏捷的棕色动物跳过了懒惰的狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”];references = tokenizedDocument(str);

使用默认选项计算候选文档和参考文档之间的BLEU分数。的bleuEvaluationScore函数在默认情况下使用长度为1到4的n个g,并且具有相等的权重。

分数= blueevaluationscore(摘要,参考资料)
得分= 0.7825

鉴于摘要文档与参考文档之间只有一个词的不同,这个分数可能表明相似性低于预期。这种行为是由于函数使用的n-gram对于较短的文档长度来说太大了。

要解决此问题,请使用更短的n-grams“NgramWeights”选择一个较短的矢量。再次计算BLEU分数,只使用字母和字母“NgramWeights”两元素向量的选项。通过指定相同的权重来平等对待字母和字母。

得分= bleuEvaluationScore(摘要,参考,“NgramWeights”(0.5 - 0.5))
得分= 0.8367

这个分数表明了比以前更好的相似性。

输入参数

全部折叠

候选文档,指定为tokenizedDocument标量、字符串数组或字符向量的单元格数组。如果候选人不是tokenizedDocument标量,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。

参考文件,指定为atokenizedDocument数组、字符串数组或字符向量的单元格数组。如果参考文献不是tokenizedDocument数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。若要对多个参考文档进行评估,请使用tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。

在R2021a之前,使用逗号分隔每个名称和值,并将其括起来名字在报价。

例子:bleuEvaluationScore(候选人、引用IgnoreCase = true)评估BLEU相似度得分忽略情况

N-gram权重,指定为有限非负值的行向量,其中NgramWeights(我)对应于长度n克的权重.权重向量的长度决定了用于BLEU评分评估的n-gram长度范围。该函数将n个权重归一化为1。

提示

如果字数在候选人小于里面元素的数量ngramWeights,则得到的BLEU分数为零。为了确保bleuEvaluationScore为非常短的文档返回非零分ngramWeights到元素数小于字数的向量候选人

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

选项,忽略大小写,指定为以下值之一:

  • 0) -在候选人和推荐信之间使用区分大小写的比较。

  • 1真正的) -比较候选人和参考资料,忽略大小写。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑

输出参数

全部折叠

BLEU分数,作为范围[0,1]或

BLEU分数接近零表示两者之间的相似性较差候选人而且参考文献.BLEU分数接近1表示相似性很强。如果候选人和其中一份参考文件是一样的吗分数是1。如果候选人而且参考文献那么,两个都是空文档吗分数.有关更多信息,请参见蓝色的分数

提示

如果字数在候选人小于里面元素的数量ngramWeights,则得到的BLEU分数为零。为了确保bleuEvaluationScore为非常短的文档返回非零分ngramWeights到元素数小于字数的向量候选人

算法

全部折叠

蓝色的分数

双语评价替补(BLEU)评分算法[1]评估候选文档与参考文档集合之间的相似性。使用BLEU评分来评估文档翻译和摘要模型的质量。

为了计算BLEU分数,该算法使用n-gram计数,剪掉的n克计数修改n-gram精度分数,以及简洁的点球

剪切n-gram计数函数 剪辑 ,如有必要,截断每个n-gram的n-gram计数,使其不超过该n-gram的任何单个引用中观察到的最大计数。剪切计数函数由

剪辑 语法 最小值 语法 MaxRefCount 语法

在哪里 语法 表示n-gram计数和 MaxRefCount 语法 是在单个参考文档中观察到的该n-gram的最大n-gram计数。

修改n-gram精度分数是由

p n C 候选人 语法 C 剪辑 语法 C 候选人 语法 C 语法

在哪里n对应于n-gram长度和 候选人 是候选文档中的句子集合。

给定一个n克权重的向量w,蓝色的分数是由

bleuScore 英国石油公司 · 经验值 n 1 N w n 日志 p ¯ n

在哪里N最大的n克长度,是多少 p ¯ 对应于修改后n-gram精度的几何平均值,和 英国石油公司 简洁的点球给出的

英国石油公司 1 如果 c > r e 1 r c 如果 c r

在哪里c候选文件的长度和r与候选长度最接近的参考文档的长度。

参考文献

[1] Papineni, Kishore, Salim Roukos, Todd Ward和Wei-Jing Zhu。《BLEU:机器翻译的自动评价方法》在第40届计算语言学协会年会论文集,第311-318页。计算语言学协会,2002年。

版本历史

R2020a中引入

Baidu
map