textrankKeywords

使用TextRank提取关键字

在页面中全部折叠

语法

台= textrankKeywords(文档)

台= textrankKeywords(文档名称、值)

描述

例子

资源描述= textrankKeywords (文档）使用TextRank提取关键词和各自的分数。支持英文、日文、德文、韩文文本。对于其他语言，请尝试使用rakeKeywords函数来代替。

例子

资源描述= textrankKeywords (文档，名称,值）使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

使用TextRank提取关键词

打开生活的脚本

创建一个包含文本数据的标记文档数组。

textData = [“MATLAB为工程师提供了非常有用的工具。科学家在MATLAB中使用了许多有用的工具。”“MATLAB和Simulink有很多特点。使用MATLAB和Simulink进行工程工作流程。在MATLAB中分析文本和图像。在MATLAB中分析文本、图像和视频。”];文件= tokenizedDocument (textData);

方法提取关键字textrankKeywords函数。

台= textrankKeywords(文档)

台=7×3表关键字DocumentNumber得分  _________________________________ ______________ ______ " 许多“有用的”“工具”1 5.2174“有用的”“工具”“1 3.8778“许多”“功能”““2 4.0815”文本”“”“”3 1”图片”“”“”3 1”MATLAB”“”“”“”“”“3 1”视频3 1

如果关键字包含多个单词，则我字符串数组的第Th元素对应于我关键字的字。如果关键字的字数少于最长关键字，则字符串数组的其余条目为空字符串＂＂．

方法将多字关键字转换为单个字符串，以提高可读性加入而且带功能。

如果size(tbl.关键字，2)> 1 tbl。关键字= strip(join(tbl.Keyword));结束资源描述

台=7×3表关键字DocumentNumber Score ___________________ ______________ ______ "many useful tools" 1 5.2174 "useful tools" 1 3.8778 "many features" 2 4.0815 "text" 3 1 "images" 3 1 "MATLAB" 3 1 "videos" 3 1

指定每个文档的最大关键字数

打开生活的脚本

创建一个包含文本数据的标记化文档数组。

textData = [“MATLAB为工程师提供了非常有用的工具。科学家使用许多有用的MATLAB工具箱。”“MATLAB和Simulink有很多特点。使用MATLAB和Simulink进行工程工作流程。在MATLAB中分析文本和图像。在MATLAB中分析文本、图像和视频。”];文件= tokenizedDocument (textData);

方法提取前两个关键字textrankKeywords函数和设置“MaxNumKeywords”选项2．

台= textrankKeywords(文档,“MaxNumKeywords”,2)

台=5×3表关键字DocumentNumber得分  _____________________________________ ______________ ______ " 有用”“MATLAB”“工具箱”1 4.8695“有用”“”“”1 2.3612“许多”“功能”““2 4.0815”文本”“”“”“”“”“3 1”图像3 1

方法将多字关键字转换为单个字符串，以提高可读性加入而且带功能。

如果size(tbl.关键字，2)> 1 tbl。关键字= strip(join(tbl.Keyword));结束资源描述

台=5×3表关键字DocumentNumber得分  _________________________ ______________ ______ " 有用的MATLAB工具箱4.8695“1”有用“1 2.3612”许多特性“2 4.0815”文本“3 1”图片“3 1

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字符串数组的单词|字符向量的单元格数组

输入文档，指定为tokenizedDocument数组，字的字符串数组，或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组，那么它必须是表示单个文档的行向量，其中每个元素都是一个单词。要指定多个文档，请使用tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后，但对的顺序并不重要。

在R2021a之前，名称和值之间用逗号隔开，并括起来的名字在报价。

例子:textrankKeywords(文档、“MaxNumKeywords”20)每个文档最多返回20个关键字。

`MaxNumKeywords`- - - - - -每个文档返回的最大关键字数
`正`(默认)|正整数

每个文档返回的最大关键字数，指定为正整数或正．

如果MaxNumKeywords是正，则函数返回所有识别的关键字。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

`窗口`- - - - - -共现窗口的大小
2(默认)|正整数|`正`

共现窗口的大小，指定为逗号分隔的对，由“窗口”一个正整数或者正．

当窗口大小为2时，只有当两个候选关键字在文档中连续出现时，该函数才会考虑它们之间的共出现。当窗口大小为正，则当两个候选关键字同时出现在同一文档中时，该函数会考虑它们之间的共现情况。

增加窗口大小使函数能够发现关键字之间更多的共现，从而增加关键字的重要性得分。这可能会导致找到更多相关的关键字，代价是可能会对不相关的关键字评分过高。

有关更多信息，请参见TextRank关键字提取．

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

`PartOfSpeech`- - - - - -词性标记
`["名词”“专有名词”“形容词”)`(默认)|字符串数组|字符向量的单元格数组|特征向量|分类数组

词性标记用于提取候选关键字，指定为逗号分隔的对，由“PartOfSpeech”和字符串数组、字符向量的单元格数组或包含以下一个或多个类名的类别数组:

形容词——形容词
adposition——Adposition
副词——副词
助动词——助动词
coord-conjunction——并列连接词
决定因素——决定因素
感叹词——感叹词
名词- - - - - -名词
数字——数字
粒子——粒子
代词——代词
专有名词(专有名词
标点符号(标点符号
subord-conjunction- - - - - -从属conjucntion
象征——象征
动词——动词
其他——其他

如果PartOfSpeech是字符向量，那么它必须对应于单个词性标记。

有关更多信息，请参见TextRank关键字提取．

数据类型:字符|字符串|细胞|分类

输出参数

全部折叠

`资源描述`-提取关键字和分数
表格

提取关键字和分数，作为包含以下变量的表返回:

关键字—提取关键字，指定为1 × -maxNgramLength字符串数组,maxNgramLength最长关键字的字数。
DocumentNumber—包含对应关键字的文档号。
分数-关键字评分。

当多个关键字在相应的文档中连续出现时，该函数将它们合并为单个关键字。

如果关键字包含多个单词，则我对应字符串数组的第Th元素对应于我关键字的字。如果关键字的字数少于最长关键字，则字符串数组的其余条目为空字符串＂＂．

有关更多信息，请参见TextRank关键字提取．

提示

您可以尝试不同的关键字提取算法，看看哪些算法最适合您的数据。由于TextRank关键字算法使用基于词性标签的方法来提取候选关键字，因此提取的关键字可能很短。或者，您可以尝试使用RAKE算法提取关键字，该算法提取分隔符之间出现的标记序列作为候选关键字。要使用RAKE提取关键字，请使用rakeKeywords函数。要了解更多，请参见使用RAKE从文本数据中提取关键字．

算法

全部折叠

TextRank关键字提取

对于每个文档，textrankKeywords函数使用以下步骤独立提取关键字[1]：

确定候选关键词:
- 方法指定的词性提取标记“PartOfSpeech”选择。
计算每个候选人的分数:
- 创建一个无向、无加权图，其中节点对应于候选关键字。
- 在标记窗口内出现候选关键字的节点之间添加边，其中窗口大小由“窗口”选择。
- 使用PageRank算法计算每个节点的中心性，并根据候选关键字的数量对分数进行加权。有关更多信息，请参见中心．
从候选人中提取关键词:
- 根据评分选择前三分之一的候选关键词。
- 如果任何候选关键字连续出现在文档中，则将它们合并为单个关键字并将相应的分数相加。
- 返回顶部k关键字,k由“MaxNumKeywords”选择。

语言细节

tokenizedDocument对象包含关于标记的详细信息，包括语言的详细信息。的行为由输入文档的语言细节决定textrankKeywords．的tokenizedDocument函数，默认情况下，自动检测输入文本的语言。要手动指定语言详细信息，请使用语言选择tokenizedDocument．要查看令牌详细信息，请使用tokenDetails函数。

参考文献

[1]米哈尔恰，蕾达和保罗·塔劳。“Textrank:为文本带来秩序。”在2004年自然语言处理经验方法会议论文集, 404 - 411页。2004.

版本历史

介绍了R2020b

另请参阅

tokenizedDocument|rakeKeywords|textrankScores|extractSummary

textrankKeywords

语法

描述

例子

使用TextRank提取关键词

指定每个文档的最大关键字数

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字符串数组的单词|字符向量的单元格数组

名称-值参数

`MaxNumKeywords`- - - - - -每个文档返回的最大关键字数
`正`(默认)|正整数

`窗口`- - - - - -共现窗口的大小
2(默认)|正整数|`正`

`PartOfSpeech`- - - - - -词性标记
`["名词”“专有名词”“形容词”)`(默认)|字符串数组|字符向量的单元格数组|特征向量|分类数组

输出参数

`资源描述`-提取关键字和分数
表格

更多关于

语言的注意事项

提示

算法

TextRank关键字提取

语言细节

参考文献

版本历史

另请参阅

主题

textrankKeywords

语法

描述

例子

使用TextRank提取关键词

指定每个文档的最大关键字数

输入参数

文档- - - - - -输入文档tokenizedDocument数组|字符串数组的单词|字符向量的单元格数组

名称-值参数

MaxNumKeywords- - - - - -每个文档返回的最大关键字数正(默认)|正整数

窗口- - - - - -共现窗口的大小2(默认)|正整数|正

PartOfSpeech- - - - - -词性标记["名词”“专有名词”“形容词”)(默认)|字符串数组|字符向量的单元格数组|特征向量|分类数组

输出参数

资源描述-提取关键字和分数表格

更多关于

语言的注意事项

提示

算法

TextRank关键字提取

语言细节

参考文献

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字符串数组的单词|字符向量的单元格数组

`MaxNumKeywords`- - - - - -每个文档返回的最大关键字数
`正`(默认)|正整数

`窗口`- - - - - -共现窗口的大小
2(默认)|正整数|`正`

`PartOfSpeech`- - - - - -词性标记
`["名词”“专有名词”“形容词”)`(默认)|字符串数组|字符向量的单元格数组|特征向量|分类数组

`资源描述`-提取关键字和分数
表格