主要内容

bagOfNgrams

Bag-of-n-grams模型

描述

一个n-g - bag模型记录了一个集合的每个文档中每个n-gram出现的次数。n-gram是一个集合n连续的字。

bagOfNgrams不将文本拆分为文字。要创建标记化文档的数组,请参见tokenizedDocument

创建

描述

= bagOfNgrams创建一个包含n个grams的空袋子模型。

例子

= bagOfNgrams (文档)创建一个包含n个单词的袋子模型,并计算其中的重格(单词对)文档

例子

= bagOfNgrams (___“NgramLengths”,长度)使用前面的任何语法计算指定长度的n克。

例子

= bagOfNgrams (uniqueNgrams,计数)使用中的n-grams创建一个n-grams的袋子模型uniqueNgrams并将相应的频率计算在内计数。如果uniqueNgrams包含< >失踪值,则对应的值在计数将被忽略。

输入参数

全部展开

输入文档,指定为tokenizedDocument数组,单词的字符串数组,或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组,那么它必须是一个行向量,表示一个single文档,其中每个元素都是一个单词。要指定多个文档,请使用tokenizedDocument数组中。

唯一的n格列表,指定为aNumNgrams——- - - - - -maxN字符向量的字符串数组或单元格数组,其中NumNgrams唯一n-gram的个数,和maxN是最大n-gram的长度。

的价值uniqueNgrams (i, j)j的Th字语法。如果单词的数量n-gram小于maxN,那么剩下的条目th排uniqueNgrams是空的。

如果uniqueNgrams包含< >失踪,则函数忽略中对应的值计数

每个n-gram必须至少有一个单词。

例子:[" " "”;“一个”“例子”;“例子”“”)

数据类型:字符串|细胞

的行对应的n-g的频率计数uniqueNgrams,指定为非负整数的矩阵。的值计数(i, j)对应于n-gram的次数uniqueNgrams (j,:)出现在文档。

计数必须有一样多的列uniqueNgrams也行。

n克的长度,指定为正整数或正整数的向量。

属性

全部展开

每个文档的n克计数,指定为稀疏矩阵。

模型中唯一的n-grams,指定为字符串数组。Ngrams (i, j)j的Th字语法。的列数Ngrams大于n-gram中的单词数,则剩下的条目为空。

n克的长度,指定为正整数或正整数的向量。

模型中唯一的单词,指定为字符串向量。

数据类型:字符串

所见n克数,指定为非负整数。

所见文档的数量,指定为非负整数。

对象的功能

编码 将文档编码为word或n-gram计数的矩阵
tfidf Term Frequency - inverse Document Frequency (tf-idf)矩阵
topkngrams 最常见的字格
addDocument 将文档添加到单词袋或n-grams袋模型中
removeDocument 从单词袋或n-grams袋模型中移除文档
removeEmptyDocuments 从标记化文档数组、单词包模型或n-grams包模型中删除空文档
removeNgrams 从bag-of-n-grams模型中删除n-grams
removeInfrequentNgrams 从bag-of-n-grams模型中删除不常见的n-grams
加入 结合多个单词袋或n-grams袋模型
wordcloud 从文本、单词袋模型、n-grams袋模型或LDA模型创建词云图

例子

全部折叠

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格隔开。提取文本。sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);文档(1:10)
ans = 10 x1 tokenizedDocument: 70令牌:美丽的生物欲望增加从而美丽玫瑰可能永远不会死成熟时间流逝的记忆交给娇嫩的后嗣收缩你的明亮的眼睛feedst你灯火焰selfsubstantial燃料使饥荒丰富是你的自我你的敌人你甜蜜的自我残忍你艺术世界新鲜点缀春天华丽使者你自己的花蕾埋葬你的内容投标乡下人makst浪费吝啬鬼遗憾世界其他贪吃的人吃世界由于严重你71令牌:四十个冬天将包围你的额头挖深壕你的美丽的田地你的青年骄傲的制服凝视破烂的杂草小价值被拥有问你的美丽谎言珍惜你的旺盛的日子说你自己的深凹陷的眼睛控诉耻辱节约赞美赞美值得你的美丽你可以回答美丽的孩子我的将被计算用旧的理由证明美丽继承你的新造你老了你的血液温暖你感到寒冷65个记号:看你的镜子告诉你的脸你看时间的脸形成另一个人的新修补你更新你欺骗世界不受祝福的母亲美丽的子宫蔑视耕作你的耕作喜爱的坟墓自爱停止子孙你是你母亲的镜子你呼唤可爱的四月黄金你窗口你的年龄将不顾皱纹你的黄金时光你活着独自死去你的形象死你71个标志:放荡的可爱你为什么在你自己身上花费你的美丽的遗产自然的遗产不给任何东西不借坦率的借给自由美丽的吝啬鬼你为什么滥用慷慨的慷慨你给无益的高利贷者你为什么有大量的钱却能生活的交易你独自你自己你自己你可爱的自己欺骗自然叫你走了可接受的稽核你能留下你的无用的美丽坟墓你活着的执行者61个符号:时光温柔的工作框可爱的凝视每只眼睛都居住玩暴君同样的不公平公平地超越永不休息的时间过夏天可怕的冬天迷惑树冻霜冻繁茂的树叶完全消失美丽被白雪覆盖赤裸每年夏天蒸馏留下的液体囚犯禁闭的墙玻璃美丽的效果美丽被剥夺也没有记忆花蒸馏虽然冬天遇到leese显示物质仍然生活甜蜜68个标志:让冬天破烂的手玷污你你的夏天在你蒸馏之前做甜蜜的小瓶宝藏你安置美丽的宝藏在自杀之前禁止放债快乐支付愿意的贷款你自己繁殖另一个你十倍幸福十倍你自己幸福十倍你十倍重新塑造你死亡你应该离开留下你活着的后代自我意志你是美丽的死亡征服让蠕虫你的继承人64个标志:看东方仁慈的光抬起燃烧的头眼睛致敬新出现的视力服务的外表神圣的威严爬陡峭的天山像强壮的青年中年但凡人的外表崇拜美丽仍然参加金色的朝圣最高的pitch疲劳的汽车像虚弱的年龄reeleth天眼睛前孝顺的皈依低道看另一个方向你自己出去你的中午不看死亡,除非你得到儿子70个标志:音乐听为什么赫斯特你音乐悲伤甜蜜甜蜜战争喜悦喜悦喜悦为什么爱你你欣然接受否则接受快乐你的烦恼真实和谐和谐的声音结合甜美地冒犯你的耳朵责备你混淆单身的部分你应该承担标记串甜美的丈夫另一个打击相互秩序像父系孩子快乐的母亲悦耳的音符唱他无言的歌许多似乎唱你你单身将证明没有70个记号:害怕湿寡妇的眼睛你消耗你自己的单身生活啊,你没有配偶的人会死世界哀号你像没有妻子的世界你的寡妇仍然哭泣你形成你已经留下了每一个私人寡妇很好地照顾孩子的眼睛丈夫的形状的心灵看不节俭的世界花转移的地方仍然世界享受美丽的浪费有世界的尽头被闲置的用户破坏爱对别人的怀抱坐着谋杀的耻辱犯69个记号:羞耻否认你承受爱你自己是没有远见的承认你会你被爱很多你没有爱明显你被占有杀人的恨对你自己你坚持阴谋寻求美丽的屋顶毁坏修理你的主要愿望改变你的思想改变思想将恨更美丽的lodgd温柔的爱你的存在亲切的善良的自己最善良的证明给你另一个自己爱美丽仍然活你的你

创建n克袋模型。

袋= bagOfNgrams(文档)
bag = bagOfNgrams属性:计数:[154x8799 double]词汇:["fair " "creatures" "desire"…] Ngrams: [8799x2 string] ngramlength: 2 NumNgrams: 8799 NumDocuments: 154

使用字云可视化模型。

图wordcloud(袋);

图中包含一个类型为wordcloud的对象。

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格隔开。提取文本。sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建n克袋模型。要计算长度为2和3的n克数(单格和三格),请指定“NgramLengths”成为向量3 [2]

袋= bagOfNgrams(文档,“NgramLengths”3 [2])
bag = bagOfNgrams带有属性:Counts: [154×18022 double]词汇:[1×3092 string] Ngrams: [18022×3 string] ngramlength: [2 3] NumNgrams: 18022 NumDocuments: 154

查看长度为2的最常见的10个n-grams (bigrams)。

topkngrams(包10“NGramLengths”, 2)
ans =10×3表Ngram计数NgramLength  _______________________ _____ ___________ " 你”“艺术”“我“34 2”“眼睛”““15 2”你”“自我”““14 2”你”“你”“我“13 2”“自己的”“13 2”你”“香”““12 2”你”“爱”““11 2”难道你”“你”““10 2”“要”““10 2”爱情”“你”““9 2

查看长度为3的最常见的10个n-gram(三格)。

topkngrams(包10“NGramLengths”3)
ans =10×3表Ngram计数NgramLength  ____________________________ _____ ___________ " 你”“香”“自我”4 3“为什么”“难道”“你“4 3”“自我”“你“3 3”你”“你”“自我”3 3“我”“眼睛”“心”3 3“你”“要”“找到”3 3“公平”“善意”“真实”3 3”你”“艺术”“公平”2 3“爱”你的“自我”2 3“你”“自我”“你”2 3

使用唯一的n-grams字符串数组和计数矩阵创建一个n-grams的袋子模型。

加载例子n克和计数从sonnetsBigramCounts.mat。该文件包含一个字符串数组uniqueNgrams,其中包含唯一的n-grams和矩阵计数,其中包含n克频率计数。

负载sonnetsBigramCounts.mat

查看in的前几个n-gramuniqueNgrams

uniqueNgrams (1:10,:)
ans =10 x2字符串“fair”“creatures”“creatures”“desire”“desire”“increase”“increase”“因此”“因此”“beautys”“beautys”“rose”“rose”“might”“might”“never”“never”“die”“die”“riper”

创建n克的袋子模型。

袋= bagOfNgrams (uniqueNgrams计数)
bag = bagOfNgrams属性:计数:[154x8799 double]词汇:["fair " "creatures" "desire"…] Ngrams: [8799x2 string] ngramlength: 2 NumNgrams: 8799 NumDocuments: 154

版本历史

介绍了R2018a

Baidu
map