帮助中心帮助中心
最常见的字格
台= topkngrams(袋)
台= topkngrams(袋、k)
台= topkngrams (___、名称、值)
例子
资源描述= topkngrams (袋)返回一个表,列出在n-g - bag模型中最常出现的5个n-g袋.缺省情况下,该函数区分大小写。
资源描述= topkngrams (袋)
资源描述
袋
资源描述= topkngrams (袋,k)列出了k最常见的n-g出现在n-g的袋子模型中袋.缺省情况下,该函数区分大小写。
资源描述= topkngrams (袋,k)
k
资源描述= topkngrams (___,名称,值)使用一个或多个名称-值对参数指定其他选项。
资源描述= topkngrams (___,名称,值)
名称,值
全部折叠
创建一个包含n克包模型的最频繁重格表。
加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,词之间用空格隔开。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后对文档进行标记。
sonnetsPreprocessed.txt
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
创建一个n克的袋子模型。
袋= bagOfNgrams(文档)
计数:[154×8799 double]词汇:[1×3092 string] Ngrams: [8799×2 string] ngramlength: 2 NumNgrams: 8799 NumDocuments: 154
找到排名前5的偏见。
台=5×3表Ngram计数NgramLength ________________ _____ ___________ " 34 2你”“艺术”“我”“眼睛”15 2”你的“自我”14 2”你”“难道”13 2“我”自己的“13 2
找到排名前10的偏见。
台= topkngrams(袋,10)
台=10×3表Ngram计数NgramLength _________________ _____ ___________ " 34 2你”“艺术”“我”“眼睛”15 2”你的“自我”14 2”你”“难道”13 2“我”自己的“13 2”你的“甜”12 2”你的“爱”11 2”难道你”““10 2”“枯萎”10 2”爱“你”9 2
创建一个n克的袋子模型。要计算长度为2和3的n个克(双字母和三字母),请指定“NgramLengths”是矢量3 [2].
“NgramLengths”
3 [2]
袋= bagOfNgrams(文档,“NgramLengths”3 [2])
计数:[154×18022 double]词汇:[1×3092 string] Ngrams: [18022×3 string] ngramlength: [2 3] NumNgrams: 18022 NumDocuments: 154
查看长度为2的最常见的10个n-gram(重格)。
topkngrams(包10“NGramLengths”,2)
ans =10×3表Ngram计数NgramLength _______________________ _____ ___________ " 你”“艺术”“我“34 2”“眼睛”““15 2”你”“自我”““14 2”你”“你”“我“13 2”“自己的”“13 2”你”“香”““12 2”你”“爱”““11 2”难道你”“你”““10 2”“要”““10 2”爱情”“你”““9 2
查看长度为3的最常见的10个n格(三格)。
topkngrams(包10“NGramLengths”3)
ans =10×3表Ngram计数NgramLength ____________________________ _____ ___________ " 你”“香”“自我”4 3“为什么”“难道”“你“4 3”“自我”“你“3 3”你”“你”“自我”3 3“我”“眼睛”“心”3 3“你”“要”“找到”3 3“公平”“善意”“真实”3 3”你”“艺术”“公平”2 3“爱”你的“自我”2 3“你”“自我”“你”2 3
bagOfNgrams
输入n克袋模型,指定为bagOfNgrams对象。
返回的n克数,指定为正整数。
例子:20.
指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。
Name1 = Value1,…,以=家
的名字
价值
在R2021a之前,名称和值之间用逗号隔开,并括起来的名字在报价。
例子:“NgramLengths”,[2 3]指定返回顶部双字母组合和三字母组合。
“NgramLengths”,[2 3]
NgramLengths
n克长度,指定为逗号分隔的对“NgramLengths”一个正整数或者正整数的向量。
如果您指定NgramLengths,则函数只返回这些长度的n克。如果不指定NgramLengths,则函数返回前n个g,而不考虑长度。
例子:(1 2 3)
(1 2 3)
IgnoreCase
假
真正的
选项忽略大小写,指定为逗号分隔的对,由“IgnoreCase”和以下其中之一:
“IgnoreCase”
假-将仅因格而异的n格视为单独的n格。
真正的-将仅大小写不同的n-gram视为相同的n-gram和合并计数。
ForceCellOutput
指示符,用于强制将输出返回为单元格数组,指定为由“ForceCellOutput”而且真正的或假.
“ForceCellOutput”
数据类型:逻辑
逻辑
按频率排序的前n个字母的表格或表格的单元格数组。
该表有以下几列:
Ngram
数
NgramLength
如果袋是非标量数组还是“ForceCellOutput”是真正的,则函数将输出作为表的单元格数组返回。单元格数组中的每个元素都是包含对应元素的前n个g的表袋.
介绍了R2018a
bagOfWords|bagOfNgrams|removeInfrequentNgrams|removeNgrams|topkwords|tfidf|tokenizedDocument
bagOfWords
removeInfrequentNgrams
removeNgrams
topkwords
tfidf
tokenizedDocument
您有了这个示例的修改版本。您想用您的编辑打开这个示例吗?
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。
选择一个网站,在可用的地方获得翻译的内容,并查看当地的活动和优惠。根据您的地理位置,我们建议您选择:.
您也可以从以下列表中选择网站:
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。
联系当地办事处