帮助中心帮助中心
词汇袋模型或LDA主题中最重要的词汇
TBL = topkwords(包)
TBL = topkwords(包,k)
tbl = topkwords(ldaMdl,k,topicIdx)
topkword的词性:___、名称、值)
例子
资源描述= topkwords (袋)返回单词袋模型中单词计数最大的五个单词的表袋.缺省情况下,该函数区分大小写。
资源描述= topkwords (袋)
资源描述
袋
资源描述= topkwords (袋,k)类的表返回k单词数最多的单词。缺省情况下,该函数区分大小写。
资源描述= topkwords (袋,k)
k
资源描述= topkwords (ldaMdl,k,topicIdx)类的表返回k潜在狄利克雷分配(LDA)主题中概率最高的词topicIdx在LDA模型中ldaMdl.
资源描述= topkwords (ldaMdl,k,topicIdx)
ldaMdl
topicIdx
资源描述= topkwords (___,名称,值)使用一个或多个名称-值对参数指定其他选项。
资源描述= topkwords (___,名称,值)
名称,值
全部折叠
创建单词袋模型中最频繁出现的单词的表。
加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,词之间用空格隔开。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后对文档进行标记。
sonnetsPreprocessed.txt
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData = split(str,换行符);documents = tokenizedDocument(textData);
使用创建单词袋模型bagOfWords.
bagOfWords
字(文件)
计数:[154x3092 double]词汇:[“最公平的”“生物”“欲望”…NumWords: 3092 NumDocuments: 154
找出排名前五的单词。
T = topkwords(袋子);
找出模型中排名前20的单词。
K = 20;T = topkwords(袋子,k)
T =20×2表单词计数________ _____“你的”281“你的”234“爱”162“你的”161”做“88”我的“63”将“59”眼睛“56”甜蜜“55”时间“53”美丽“52”也不是“52”艺术“51”但“51”o“50”心“50”
创建一个LDA主题概率最高的单词表。
要再现结果,请设置rng来“默认”.
rng
“默认”
rng (“默认”)
bag = bagOfWords(文档);
拟合一个包含20个主题的LDA模型。若要抑制详细输出,请设置“详细”为0。
“详细”
numTopics = 20;mdl = fitlda(bag,numTopics,“详细”, 0);
找出第一个话题的前20个单词。
K = 20;topicIdx = 1;tbl = topkwords(mdl,k,topicIdx)
台=20×2表单词得分________ _________“眼睛”0.11155“美”0.05777“有”0.055778“仍然”0.049801“真”0.043825“矿”0.033865“找到”0.031873“黑”0.025897“看”0.023905“是”0.023905“种”0.021913“看到”0.021913“发现”0.017929“罪”0.015937“三”0.013945“金”0.0099608
找出第一个主题的前20个单词,并对分数使用反均值缩放法。
tbl = topkwords(mdl,k,topicIdx,“缩放”,“inversemean”)
台=20×2表单词得分________ ________“眼睛”1.2718“美”0.59022“有”0.5692“仍然”0.50269“真”0.43719“矿”0.32764“找到”0.32544“黑”0.25931“tis”0.23755“看”0.22519“种”0.21594“看到”0.21594“发现”0.17326“罪”0.15223“三”0.13143“金”0.090698“
使用缩放分数作为大小数据创建一个词云。
图wordcloud (tbl.Word tbl.Score);
输入单词袋模型,指定为bagOfWords对象。
返回的字数,指定为正整数。
例子:20.
ldaModel
输入LDA模型,指定为ldaModel对象。
LDA主题的索引,指定为非负整数。
指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。
Name1 = Value1,…,以=家
的名字
价值
在R2021a之前,名称和值之间用逗号隔开,并括起来的名字在报价。
例子:“缩放”、“inversemean”指定对主题词概率使用反向平均缩放。
“缩放”、“inversemean”
IgnoreCase
假
真正的
选项忽略大小写,指定为逗号分隔的对,由“IgnoreCase”和以下其中之一:
“IgnoreCase”
假-视大小写不同的单词为单独的单词。
真正的-将大小写不同的单词视为相同的单词,合并计数。
此选项只支持字袋输入。
ForceCellOutput
指示符,用于强制将输出返回为单元格数组,指定为由“ForceCellOutput”而且真正的或假.
“ForceCellOutput”
数据类型:逻辑
逻辑
扩展
“没有”
“inversemean”
缩放以应用于主题词概率,指定为逗号分隔的对,由“缩放”和以下其中之一:
“缩放”
“没有”-返回后验单词概率。
“inversemean”-用这个词在所有主题上的后验概率的几何平均值来规范化每个主题的后验词概率。函数使用了这个公式φ。*(日志(φ)意味着(日志(φ),1)),在那里φ对应于ldaMdl。TopicWordProbabilities.
φ。*(日志(φ)意味着(日志(φ),1))
φ
ldaMdl。TopicWordProbabilities
该选项只支持LDA模型输入。
例子:“缩放”、“inversemean”
数据类型:字符
字符
按重要性排序的最重要单词的表格或表格的单元格数组。
当输入是单词袋模型时,表中有以下列:
词
数
如果袋是非标量数组还是“ForceCellOutput”是真正的,则函数将输出作为表的单元格数组返回。单元格数组中的每个元素都是一个表,其中包含相应元素的顶部单词袋.
当输入是LDA模型时,表中有以下列:
分数
要查找n-克包模型中最常出现的n-克,使用topkngrams.
topkngrams
在R2017b中引入
bagOfWords|bagOfNgrams|removeInfrequentWords|removeWords|topkngrams|tfidf|ldaModel|tokenizedDocument
bagOfNgrams
removeInfrequentWords
removeWords
tfidf
tokenizedDocument
您有了这个示例的修改版本。您想用您的编辑打开这个示例吗?
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。
选择一个网站,在可用的地方获得翻译的内容,并查看当地的活动和优惠。根据您的地理位置,我们建议您选择:.
您也可以从以下列表中选择网站:
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。
联系当地办事处