主要内容

bleuEvaluationScore

用BLEU相似度评分评价翻译或摘要

描述

双语评价候补研究(BLEU)评分算法评估候选文档和参考文档集合之间的相似性。用BLEU评分来评价文献翻译和摘要模型的质量。

例子

分数= bleuEvaluationScore (候选人参考文献返回指定的候选文档和参考文档之间的BLEU相似度评分。该函数计算之间的n克重叠候选人而且参考文献长度为1到4的n克,权重相等。有关更多信息,请参见蓝色的分数

例子

分数= bleuEvaluationScore (候选人参考文献名称=值使用一个或多个名称-值参数指定其他选项。

例子

全部折叠

方法创建标记文档数组并提取摘要extractSummary函数。

str = [“狐狸跳过了狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”“懒狗看见一只狐狸在跳。”“好像有动物在跳其他动物。”"动物有快的,也有懒的"];文件= tokenizedDocument (str);摘要= extractSummary(文档)
快速的棕色狐狸跳过了懒惰的狗。

将参考文档指定为tokenizedDocument数组中。

str = [“敏捷的棕色动物跳过了懒惰的狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”];引用= tokenizedDocument (str);

方法计算摘要和参考文档之间的BLEU得分bleuEvaluationScore函数。

分数= bleuEvaluationScore(总结、引用)
分数= 0.7825

这个分数表明相似度相当高。BLEU分数接近1表示相似性很强。

方法创建标记文档数组并提取摘要extractSummary函数。

str = [“狐狸跳过了狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”“懒狗看见一只狐狸在跳。”“好像有动物在跳其他动物。”"动物有快的,也有懒的"];文件= tokenizedDocument (str);摘要= extractSummary(文档)
快速的棕色狐狸跳过了懒惰的狗。

将参考文档指定为tokenizedDocument数组中。

str = [“敏捷的棕色动物跳过了懒惰的狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”];引用= tokenizedDocument (str);

使用默认选项计算候选文档和参考文档之间的BLEU得分。的bleuEvaluationScore函数在默认情况下使用长度为1到4的n克,权重相等。

分数= bleuEvaluationScore(总结、引用)
分数= 0.7825

鉴于摘要文档与一个参考文档之间只有一个词的不同,这个分数可能表明相似度低于预期。这种行为是由于函数使用的n-grams对于较短的文档长度来说太大了。

要解决这个问题,可以通过设置较短的n-g“NgramWeights”选择更短的向量。再次计算BLEU分数,只使用字母和字母组合“NgramWeights”两个元素向量的选项。通过指定相等的权值来平等地对待未字母和重字母。

分数= bleuEvaluationScore(总结、引用“NgramWeights”(0.5 - 0.5))
分数= 0.8367

这个分数表明两者的相似度比以前更高了。

输入参数

全部折叠

候选文档,指定为tokenizedDocument标量、字符串数组或字符向量的单元格数组。如果候选人不是一个tokenizedDocument标量,那么它必须是表示单个文档的行向量,其中每个元素都是一个单词。

参考文件,指定为tokenizedDocument数组、字符串数组或字符向量的单元格数组。如果参考文献不是一个tokenizedDocument数组,那么它必须是表示单个文档的行向量,其中每个元素都是一个单词。要根据多个参考文档进行评估,可以使用tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。

在R2021a之前,名称和值之间用逗号隔开,并括起来的名字在报价。

例子:bleuEvaluationScore(候选人、引用IgnoreCase = true)对忽略情况的BLEU相似度评分进行评价

n克权值,指定为有限非负值的行向量,其中NgramWeights(我)对应长度n克的权重.权重向量的长度决定了用于BLEU评分评估的n克长度的范围。该函数将n克权重归一化,使其和为1。

提示

如果字数在候选人的元素数小于ngramWeights,则得到的BLEU分数为零。以确保bleuEvaluationScore为非常短的文档返回非零分ngramWeights到元素数小于字数的向量候选人

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

选项忽略大小写,指定为以下值之一:

  • 0) -在候选人和推荐人之间使用区分大小写的比较。

  • 1真正的) -比较候选人和引用,忽略大小写。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑

输出参数

全部折叠

BLEU评分,作为[0,1]或

BLEU分数接近于零表示两者之间的相似性较差候选人而且参考文献.BLEU分数接近1表示相似性很强。如果候选人和其中一份参考文件是一样的吗分数是1。如果候选人而且参考文献那么,两者都是空文档吗分数.有关更多信息,请参见蓝色的分数

提示

如果字数在候选人的元素数小于ngramWeights,则得到的BLEU分数为零。以确保bleuEvaluationScore为非常短的文档返回非零分ngramWeights到元素数小于字数的向量候选人

算法

全部折叠

蓝色的分数

双语评价替角(BLEU)评分算法[1]评估候选文档和参考文档集合之间的相似性。用BLEU评分来评价文献翻译和摘要模型的质量。

为了计算BLEU分数,该算法使用n克计数,剪语法重要修改n-gram精度评分和一个简洁的点球

裁剪的n克计数函数 剪辑 ,如有必要,截断每个n-gram的n-gram计数,使其不超过该n-gram在任何单个引用中观察到的最大计数。剪切计数函数由

剪辑 语法 最小值 语法 MaxRefCount 语法

在哪里 语法 表示n-gram计数和 MaxRefCount 语法 是单个参考文档中观察到的该n-gram的最大n-gram计数。

修改n-gram精度评分是由

p n C 候选人 语法 C 剪辑 语法 C 候选人 语法 C 语法

在哪里n对应于n克长度和 候选人 是候选文档中的句子集。

给定一个权重为n克的向量w,蓝色的分数是由

bleuScore 英国石油公司 · 经验值 n 1 N w n 日志 p ¯ n

在哪里N最大的n克长度,是在里面吗 p ¯ 对应于修正的n-gram精度的几何平均值,和 英国石油公司 简洁的点球给出的

英国石油公司 1 如果 c > r e 1 r c 如果 c r

在哪里c候选文档的长度和r是引用文档的长度,其长度与候选长度最接近。

参考文献

[1] Papineni, Kishore, Salim Roukos, Todd Ward,和Wei-Jing Zhu。《BLEU:一种机器翻译的自动评估方法》在计算语言学协会第40届年会论文集, 311 - 318页。计算语言学协会,2002年。

版本历史

介绍了R2020a

Baidu
map