主要内容

extractSummary

从文件中提取摘要

描述

例子

总结= extractSummary (文档选择输入文档的一个子集作为摘要,并将它们作为tokenizedDocument数组中。

例子

总结分数) = extractSummary (文档还返回用于选择摘要文档的重要性分数。在这种情况下,分数(我)表示的分数。总结(我)

例子

总结分数) = extractSummary (文档名称,值使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

创建一个标记文档数组。

str = [“敏捷的棕色狐狸跳过了懒惰的狗。”“狐狸跳过了狗。”“懒狗看见一只狐狸在跳。”“好像有动物在跳其他动物。”"动物有快的,也有懒的"];文件= tokenizedDocument (str);

方法提取文档的摘要extractSummary函数。默认情况下,该函数选择输入文档的1/10,四舍五入。

摘要= extractSummary(文档)
10代币:敏捷的棕色狐狸跳过了懒惰的狗。

要指定更大的摘要,请使用“SummarySize”选择。提取一个三文档的摘要。

摘要= extractSummary(文档,“SummarySize”3)
敏捷的棕色狐狸跳过了懒惰的狗。7代币:狐狸跳过了狗。9代币:似乎有动物在跳其他动物。

创建一个标记文档数组。

str = [“敏捷的棕色狐狸跳过了懒惰的狗。”“狐狸跳过了狗。”“懒狗看见一只狐狸在跳。”“好像有动物从其他动物身上跳过去。”"动物有快的,也有懒的"];文件= tokenizedDocument (str);

提取一个三文档的摘要。第二个输出分数包含摘要文档重要性评分。

(总结,成绩)= extractSummary(文档,“SummarySize”3)
敏捷的棕色狐狸跳过了懒惰的狗。10代币:似乎有动物跳过其他动物。7代币:狐狸跳过了狗。
成绩=3×10.2426 0.2174 0.1911

把分数用柱状图形象化。

图酒吧(分数)包含(“总结文件”) ylabel (“分数”)标题(“总结文档的重要性”

图中包含一个axes对象。标题为Summary Document Importance的axis对象包含一个类型为bar的对象。

要总结单个文档,请将该文档拆分为一个句子数组,并使用extractSummary函数。

创建包含文档的字符串标量。

str =...“有一只敏捷的狐狸。狐狸是棕色的。有一只狗。+...”是懒惰。这只狗很懒。狐狸跳过了狗。”+...“敏捷的棕色狐狸跳过了懒惰的狗。”

方法将字符串拆分为句子splitSentences函数。

str = splitSentences (str)
str =6 x1字符串“有一只敏捷的狐狸。”“狐狸是棕色的。”“有一只狗很懒。”“狗很懒。”“狐狸跳过了狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”

创建一个包含句子的标记文档数组。

文件= tokenizedDocument (str)
documents = 6x1 tokenizedDocument: 6 tokens:有一只敏捷的狐狸。5代币:狐狸是棕色的。8代币:有一只懒惰的狗。6代物:这只狗很懒。7代币:狐狸跳过了狗。10代币:敏捷的棕色狐狸跳过了懒惰的狗。

从句子中提取摘要extractSummary函数。要返回包含三个文档的摘要,请设置“SummarySize”选项3。要确保摘要文档以与输入文档相同的顺序出现,请设置“OrderBy”选项“位置”

摘要= extractSummary(文档,“SummarySize”,3,“OrderBy”“位置”
summary = 3x1 tokenizedDocument: 6 tokens:有一个敏捷的狐狸。7代币:狐狸跳过了狗。10代币:敏捷的棕色狐狸跳过了懒惰的狗。

方法将这些句子重构为单个文档,将文档转换为字符串joinWords功能和连接句子使用加入函数。

句子= joinWords(总结);summaryStr =加入(句子)
有一只敏捷的狐狸。狐狸跳过狗。敏捷的棕色狐狸跳过了懒惰的狗。”

要删除周围的标点符号字符,请使用取代函数。

punctuationRight = [“。””、““”“)””:““?”“啊!”];summaryStr =取代(summaryStr,”“+ punctuationRight punctuationRight);punctuationLeft = [”(““”];summaryStr = replace(summaryStr,标点左边+”“punctuationLeft)
有一只敏捷的狐狸。狐狸跳过狗。敏捷的棕色狐狸跳过了懒惰的狗。”

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。

在R2021a之前,名称和值之间用逗号隔开,并括起来的名字在报价。

例子:extractSummary(文档、“ScoringMethod”、“lexrank”)摘录摘录自文档并将评分方法选项设置为“lexrank”

用于提取摘要的评分方法,指定为逗号分隔的对,由“ScoringMethod”和以下其中之一:

  • “textrank”—使用TextRank算法。

  • “lexrank”—使用LexRank算法。

  • “麻疹”—使用MMR算法。

查询MMR评分文档,指定为逗号分隔的对,由“查询”和一个tokenizedDocument标量,字的字符串数组或字符向量的单元格数组。如果“查询”不是一个tokenizedDocument标量,那么它必须是表示单个文档的行向量,其中每个元素都是一个单词。

此选项仅在以下情况下有效“ScoringMethod”“麻疹”

摘要的大小,指定为逗号分隔的对,由“SummarySize”和以下其中之一:

  • 范围(0,1)中的标量——提取指定比例的输入文档,四舍五入。在本例中,是摘要文档的数量装天花板(SummarySize * numDocuments),在那里numDocuments是输入文档的数量。

  • 正整数——提取具有指定文档数量的摘要。如果SummarySize大于或等于输入文档的数量,则函数返回根据“OrderBy”选择。

    —返回按顺序排序的输入文档“OrderBy”选择。

数据类型:

摘要文档的顺序,指定为逗号分隔的对,由“OrderBy”和以下其中之一:

  • “分数”-根据评分来订购文件“ScoringMethod”选择。

  • “位置”-维护文档的输入顺序。

输出参数

全部折叠

提取摘要,返回为tokenizedDocument数组中。摘要是一个子集文档,并根据“OrderBy”选择。

摘要文档评分,作为向量返回,其中分数(我)分数是多少j摘要文件根据“ScoringMethod”选择。分数是根据“OrderBy”选择。

版本历史

介绍了R2020a

Baidu
map