bleuEvaluationScore

用BLEU相似度评分评估翻译或总结

折叠所有页面

语法

分数= bleuEvaluationScore(候选人，参考资料)

得分= bleuEvaluationScore(候选人，引用，名称=值)

描述

双语评估替补(BLEU)评分算法评估候选文档和参考文档集合之间的相似性。使用BLEU评分来评估文档翻译和摘要模型的质量。

分数= bleuEvaluationScore (候选人，参考文献）返回指定候选文档与参考文档之间的BLEU相似度得分。该函数计算n-gram之间的重叠候选人而且参考文献对于长度为1到4的n克，权重相等。有关更多信息，请参见蓝色的分数．

例子

分数= bleuEvaluationScore (候选人，参考文献，名称=值）使用一个或多个名称-值参数指定其他选项。

例子

全部折叠

评估总结

打开实时脚本

方法创建标记化文档数组并提取摘要extractSummary函数。

STR = [“狐狸跳过了狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”“懒狗看见一只狐狸在跳。”“似乎有动物在跳其他动物。”“有敏捷的动物和懒惰的动物”];documents = tokenizedDocument(str);summary = extractSummary(文档)

那只敏捷的棕色狐狸跳过了那只懒惰的狗。

指定引用文档为tokenizedDocument数组中。

STR = [“敏捷的棕色动物跳过了懒惰的狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”];references = tokenizedDocument(str);

计算摘要和参考文档之间的BLEU得分bleuEvaluationScore函数。

分数= blueevaluationscore(摘要，参考资料)

得分= 0.7825

这个分数表明了相当好的相似性。BLEU分数接近1表示相似性很强。

指定N-Gram权重

打开实时脚本

方法创建标记化文档数组并提取摘要extractSummary函数。

STR = [“狐狸跳过了狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”“懒狗看见一只狐狸在跳。”“似乎有动物在跳其他动物。”“有敏捷的动物和懒惰的动物”];documents = tokenizedDocument(str);summary = extractSummary(文档)

那只敏捷的棕色狐狸跳过了那只懒惰的狗。

指定引用文档为tokenizedDocument数组中。

STR = [“敏捷的棕色动物跳过了懒惰的狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”];references = tokenizedDocument(str);

使用默认选项计算候选文档和参考文档之间的BLEU分数。的bleuEvaluationScore函数在默认情况下使用长度为1到4的n个g，并且具有相等的权重。

分数= blueevaluationscore(摘要，参考资料)

得分= 0.7825

鉴于摘要文档与参考文档之间只有一个词的不同，这个分数可能表明相似性低于预期。这种行为是由于函数使用的n-gram对于较短的文档长度来说太大了。

要解决此问题，请使用更短的n-grams“NgramWeights”选择一个较短的矢量。再次计算BLEU分数，只使用字母和字母“NgramWeights”两元素向量的选项。通过指定相同的权重来平等对待字母和字母。

得分= bleuEvaluationScore(摘要，参考，“NgramWeights”(0.5 - 0.5))

得分= 0.8367

这个分数表明了比以前更好的相似性。

输入参数

全部折叠

`候选人`- - - - - -候选人文档
`tokenizedDocument`标量|字符串数组|字符向量的单元格数组

候选文档，指定为tokenizedDocument标量、字符串数组或字符向量的单元格数组。如果候选人不是tokenizedDocument标量，则它必须是表示单个文档的行向量，其中每个元素都是一个单词。

`参考文献`- - - - - -参考文档
`tokenizedDocument`数组|字符串数组|字符向量的单元格数组

参考文件，指定为atokenizedDocument数组、字符串数组或字符向量的单元格数组。如果参考文献不是tokenizedDocument数组，则它必须是表示单个文档的行向量，其中每个元素都是一个单词。若要对多个参考文档进行评估，请使用tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后，但对的顺序无关紧要。

在R2021a之前，使用逗号分隔每个名称和值，并将其括起来名字在报价。

例子:bleuEvaluationScore(候选人、引用IgnoreCase = true)评估BLEU相似度得分忽略情况

`NgramWeights`- - - - - -语法的重量
`[0.25 0.25 0.25 0.25]`(默认)|有限非负值的行向量

N-gram权重，指定为有限非负值的行向量，其中NgramWeights(我)对应于长度n克的权重我．权重向量的长度决定了用于BLEU评分评估的n-gram长度范围。该函数将n个权重归一化为1。

提示

如果字数在候选人小于里面元素的数量ngramWeights，则得到的BLEU分数为零。为了确保bleuEvaluationScore为非常短的文档返回非零分ngramWeights到元素数小于字数的向量候选人．

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

`IgnoreCase`- - - - - -选项忽略大小写
`0`（`假`）(默认)|`1`（`真正的`）

选项，忽略大小写，指定为以下值之一:

0（假) -在候选人和推荐信之间使用区分大小写的比较。
1（真正的) -比较候选人和参考资料，忽略大小写。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑

输出参数

全部折叠

`分数`- BLEU评分
标量

BLEU分数，作为范围[0,1]或南．

BLEU分数接近零表示两者之间的相似性较差候选人而且参考文献．BLEU分数接近1表示相似性很强。如果候选人和其中一份参考文件是一样的吗分数是1。如果候选人而且参考文献那么，两个都是空文档吗分数是南．有关更多信息，请参见蓝色的分数．

提示

算法

全部折叠

蓝色的分数

双语评价替补(BLEU)评分算法[1]评估候选文档与参考文档集合之间的相似性。使用BLEU评分来评估文档翻译和摘要模型的质量。

为了计算BLEU分数，该算法使用n-gram计数，剪掉的n克计数，修改n-gram精度分数，以及简洁的点球．

剪切n-gram计数函数 $数_{剪辑}$ ，如有必要，截断每个n-gram的n-gram计数，使其不超过该n-gram的任何单个引用中观察到的最大计数。剪切计数函数由

$数_{剪辑} （语法）＝最小值（数（语法）， MaxRefCount （语法）），$

在哪里 $数（语法）$ 表示n-gram计数和 $MaxRefCount （语法）$ 是在单个参考文档中观察到的该n-gram的最大n-gram计数。

的修改n-gram精度分数是由

$p_{n} ＝ \frac{\sum_{C \in ｛候选人｝} \sum_{语法 \in C} 数_{剪辑} （语法）}{\sum_{C ＇ \in ｛候选人｝} \sum_{{语法}^{”} \in C^{”}} 数（ {语法}^{”} ）} ，$

在哪里n对应于n-gram长度和 $｛候选人｝$ 是候选文档中的句子集合。

给定一个n克权重的向量w,蓝色的分数是由

$bleuScore ＝英国石油公司 \cdot 经验值（ \sum_{n ＝ 1}^{N} w_{n} 日志 {\bar{p}}_{n} ），$

在哪里N最大的n克长度，是多少 $\bar{p}$ 对应于修改后n-gram精度的几何平均值，和 $英国石油公司$ 是简洁的点球给出的

$英国石油公司＝｛ \begin{matrix} 1 & 如果 c > r \\ e^{1 - \frac{r}{c}} & 如果 c \leq r \end{matrix}$

在哪里c候选文件的长度和r与候选长度最接近的参考文档的长度。

参考文献

[1] Papineni, Kishore, Salim Roukos, Todd Ward和Wei-Jing Zhu。《BLEU:机器翻译的自动评价方法》在第40届计算语言学协会年会论文集，第311-318页。计算语言学协会，2002年。

版本历史

R2020a中引入

另请参阅

主题

使用注意力的序列到序列转换

bleuEvaluationScore

语法

描述

例子

评估总结

指定N-Gram权重

输入参数

候选人- - - - - -候选人文档tokenizedDocument标量|字符串数组|字符向量的单元格数组

参考文献- - - - - -参考文档tokenizedDocument数组|字符串数组|字符向量的单元格数组

名称-值参数

NgramWeights- - - - - -语法的重量[0.25 0.25 0.25 0.25](默认)|有限非负值的行向量

IgnoreCase- - - - - -选项忽略大小写0（假）(默认)|1（真正的）

输出参数

分数- BLEU评分标量

算法

蓝色的分数

参考文献

版本历史

另请参阅

主题

`候选人`- - - - - -候选人文档
`tokenizedDocument`标量|字符串数组|字符向量的单元格数组

`参考文献`- - - - - -参考文档
`tokenizedDocument`数组|字符串数组|字符向量的单元格数组

`NgramWeights`- - - - - -语法的重量
`[0.25 0.25 0.25 0.25]`(默认)|有限非负值的行向量

`IgnoreCase`- - - - - -选项忽略大小写
`0`（`假`）(默认)|`1`（`真正的`）

`分数`- BLEU评分
标量