主要内容

textrankKeywords

使用TextRank提取关键字

    描述

    例子

    资源描述= textrankKeywords (文档使用TextRank提取关键词和各自的分数。支持英文、日文、德文、韩文文本。对于其他语言,请尝试使用rakeKeywords函数来代替。

    例子

    资源描述= textrankKeywords (文档名称,值使用一个或多个名称-值对参数指定其他选项。

    例子

    全部折叠

    创建一个包含文本数据的标记文档数组。

    textData = [“MATLAB为工程师提供了非常有用的工具。科学家在MATLAB中使用了许多有用的工具。”“MATLAB和Simulink有很多特点。使用MATLAB和Simulink进行工程工作流程。在MATLAB中分析文本和图像。在MATLAB中分析文本、图像和视频。”];文件= tokenizedDocument (textData);

    方法提取关键字textrankKeywords函数。

    台= textrankKeywords(文档)
    台=7×3表关键字DocumentNumber得分  _________________________________ ______________ ______ " 许多“有用的”“工具”1 5.2174“有用的”“工具”“1 3.8778“许多”“功能”““2 4.0815”文本”“”“”3 1”图片”“”“”3 1”MATLAB”“”“”“”“”“3 1”视频3 1

    如果关键字包含多个单词,则字符串数组的第Th元素对应于关键字的字。如果关键字的字数少于最长关键字,则字符串数组的其余条目为空字符串""

    方法将多字关键字转换为单个字符串,以提高可读性加入而且功能。

    如果size(tbl.关键字,2)> 1 tbl。关键字= strip(join(tbl.Keyword));结束资源描述
    台=7×3表关键字DocumentNumber Score ___________________ ______________ ______ "many useful tools" 1 5.2174 "useful tools" 1 3.8778 "many features" 2 4.0815 "text" 3 1 "images" 3 1 "MATLAB" 3 1 "videos" 3 1

    创建一个包含文本数据的标记化文档数组。

    textData = [“MATLAB为工程师提供了非常有用的工具。科学家使用许多有用的MATLAB工具箱。”“MATLAB和Simulink有很多特点。使用MATLAB和Simulink进行工程工作流程。在MATLAB中分析文本和图像。在MATLAB中分析文本、图像和视频。”];文件= tokenizedDocument (textData);

    方法提取前两个关键字textrankKeywords函数和设置“MaxNumKeywords”选项2

    台= textrankKeywords(文档,“MaxNumKeywords”,2)
    台=5×3表关键字DocumentNumber得分  _____________________________________ ______________ ______ " 有用”“MATLAB”“工具箱”1 4.8695“有用”“”“”1 2.3612“许多”“功能”““2 4.0815”文本”“”“”“”“”“3 1”图像3 1

    如果关键字包含多个单词,则字符串数组的第Th元素对应于关键字的字。如果关键字的字数少于最长关键字,则字符串数组的其余条目为空字符串""

    方法将多字关键字转换为单个字符串,以提高可读性加入而且功能。

    如果size(tbl.关键字,2)> 1 tbl。关键字= strip(join(tbl.Keyword));结束资源描述
    台=5×3表关键字DocumentNumber得分  _________________________ ______________ ______ " 有用的MATLAB工具箱4.8695“1”有用“1 2.3612”许多特性“2 4.0815”文本“3 1”图片“3 1

    输入参数

    全部折叠

    输入文档,指定为tokenizedDocument数组,字的字符串数组,或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组,那么它必须是表示单个文档的行向量,其中每个元素都是一个单词。要指定多个文档,请使用tokenizedDocument数组中。

    名称-值参数

    指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。

    在R2021a之前,名称和值之间用逗号隔开,并括起来的名字在报价。

    例子:textrankKeywords(文档、“MaxNumKeywords”20)每个文档最多返回20个关键字。

    每个文档返回的最大关键字数,指定为正整数或

    如果MaxNumKeywords,则函数返回所有识别的关键字。

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    共现窗口的大小,指定为逗号分隔的对,由“窗口”一个正整数或者

    当窗口大小为2时,只有当两个候选关键字在文档中连续出现时,该函数才会考虑它们之间的共出现。当窗口大小为,则当两个候选关键字同时出现在同一文档中时,该函数会考虑它们之间的共现情况。

    增加窗口大小使函数能够发现关键字之间更多的共现,从而增加关键字的重要性得分。这可能会导致找到更多相关的关键字,代价是可能会对不相关的关键字评分过高。

    有关更多信息,请参见TextRank关键字提取

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    词性标记用于提取候选关键字,指定为逗号分隔的对,由“PartOfSpeech”和字符串数组、字符向量的单元格数组或包含以下一个或多个类名的类别数组:

    • 形容词——形容词

    • adposition——Adposition

    • 副词——副词

    • 助动词——助动词

    • coord-conjunction——并列连接词

    • 决定因素——决定因素

    • 感叹词——感叹词

    • 名词- - - - - -名词

    • 数字——数字

    • 粒子——粒子

    • 代词——代词

    • 专有名词(专有名词

    • 标点符号(标点符号

    • subord-conjunction- - - - - -从属conjucntion

    • 象征——象征

    • 动词——动词

    • 其他——其他

    如果PartOfSpeech是字符向量,那么它必须对应于单个词性标记。

    有关更多信息,请参见TextRank关键字提取

    数据类型:字符|字符串|细胞|分类

    输出参数

    全部折叠

    提取关键字和分数,作为包含以下变量的表返回:

    • 关键字—提取关键字,指定为1 × -maxNgramLength字符串数组,maxNgramLength最长关键字的字数。

    • DocumentNumber—包含对应关键字的文档号。

    • 分数-关键字评分。

    当多个关键字在相应的文档中连续出现时,该函数将它们合并为单个关键字。

    如果关键字包含多个单词,则对应字符串数组的第Th元素对应于关键字的字。如果关键字的字数少于最长关键字,则字符串数组的其余条目为空字符串""

    有关更多信息,请参见TextRank关键字提取

    更多关于

    全部折叠

    语言的注意事项

    textrankKeywords功能只支持英语、日语、德语和韩语文本。

    textrankKeywords函数根据候选关键字的词性标记来提取关键字。类给出的词性标记addPartOfSpeechDetails功能,支持英语,日语,德语和韩语文本。

    对于其他语言,请尝试使用rakeKeywords方法指定适当的分隔符集“分隔符”而且“MergingDelimiters”选项。

    提示

    • 您可以尝试不同的关键字提取算法,看看哪些算法最适合您的数据。由于TextRank关键字算法使用基于词性标签的方法来提取候选关键字,因此提取的关键字可能很短。或者,您可以尝试使用RAKE算法提取关键字,该算法提取分隔符之间出现的标记序列作为候选关键字。要使用RAKE提取关键字,请使用rakeKeywords函数。要了解更多,请参见使用RAKE从文本数据中提取关键字

    算法

    全部折叠

    TextRank关键字提取

    对于每个文档,textrankKeywords函数使用以下步骤独立提取关键字[1]

    1. 确定候选关键词:

    2. 计算每个候选人的分数:

      • 创建一个无向、无加权图,其中节点对应于候选关键字。

      • 在标记窗口内出现候选关键字的节点之间添加边,其中窗口大小由“窗口”选择。

      • 使用PageRank算法计算每个节点的中心性,并根据候选关键字的数量对分数进行加权。有关更多信息,请参见中心

    3. 从候选人中提取关键词:

      • 根据评分选择前三分之一的候选关键词。

      • 如果任何候选关键字连续出现在文档中,则将它们合并为单个关键字并将相应的分数相加。

      • 返回顶部k关键字,k“MaxNumKeywords”选择。

    语言细节

    tokenizedDocument对象包含关于标记的详细信息,包括语言的详细信息。的行为由输入文档的语言细节决定textrankKeywords.的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。要手动指定语言详细信息,请使用语言选择tokenizedDocument.要查看令牌详细信息,请使用tokenDetails函数。

    参考文献

    [1]米哈尔恰,蕾达和保罗·塔劳。“Textrank:为文本带来秩序。”在2004年自然语言处理经验方法会议论文集, 404 - 411页。2004.

    版本历史

    介绍了R2020b

    Baidu
    map