主要内容

textrankScores

文档评分与TextRank算法

描述

例子

分数= textrankScores (文档分数文档根据使用TextRank算法的两两相似值为重要性。为了计算相似度和重要性分数,该函数分别使用BM25和PageRank算法。

例子

分数= textrankScores (用单词包或n克包模型对文档进行编码

例子

全部折叠

创建一个标记文档数组。

str = ["敏捷的棕色狐狸跳过了懒惰的狗"“敏捷的棕色狐狸跳过了懒惰的狗”这只懒狗坐在那里什么也不做。“其他动物坐在那里看着”];文件= tokenizedDocument (str)
9个记号:敏捷的棕色狐狸跳过懒狗。8个记号:懒狗坐在那里什么也不做。6个记号:其他动物坐在那里看着

计算TextRank分数。

成绩= textrankScores(文件);

把分数用柱状图形象化。

图酒吧(分数)包含(“文档”) ylabel (“分数”)标题(“TextRank分数”

图中包含一个axes对象。标题为TextRank Scores的axes对象包含一个类型为bar的对象。

中的文本数据创建单词袋模型sonnets.csv

文件名=“sonnets.csv”;台= readtable(文件名,“TextType”“字符串”);textData = tbl.Sonnet;文件= tokenizedDocument (textData);袋= bagOfWords(文档)
词汇:["来自" "最公平的" "生物" "我们"…NumWords: 3527 NumDocuments: 154

计算TextRank分数。

成绩= textrankScores(袋);

把分数用柱状图形象化。

图酒吧(分数)包含(“文档”) ylabel (“分数”)标题(“TextRank分数”

图中包含一个axes对象。标题为TextRank Scores的axes对象包含一个类型为bar的对象。

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组,字的字符串数组,或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组,那么它必须是表示单个文档的行向量,其中每个元素都是一个单词。要指定多个文档,请使用tokenizedDocument数组中。

输入单词袋或n克袋模型,指定为bagOfWords对象或一个bagOfNgrams对象。如果是一个bagOfNgrams对象,则函数将每个n-gram视为单个单词。

输出参数

全部折叠

TextRank分数,返回为N1的向量,分数(我)对应的分数输入文档和N是输入文档的数量。

参考文献

[1]米哈尔恰,蕾达和保罗·塔劳。“Textrank:为文本带来秩序。”在2004年自然语言处理经验方法会议论文集, 404 - 411页。2004.

版本历史

介绍了R2020a

Baidu
map