主要内容

removeNgrams

从n克袋模型中移除n克

描述

例子

newBag= removeNgrams (ngrams从n克包模型中删除指定的n克.缺省情况下,该函数区分大小写。

newBag= removeNgrams (ngrams“IgnoreCase”,真的)删除忽略大小写的n-grams。

例子

newBag= removeNgrams (idx中的数字或逻辑索引指定n克袋里。Ngrams.此语法与newBag = removeNgrams(袋、bag.Ngrams (idx,:))

例子

全部折叠

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,词之间用空格隔开。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建bag-of-n-grams模型。

袋= bagOfNgrams(文档)
计数:[154×8799 double]词汇:[1×3092 string] Ngrams: [8799×2 string] ngramlength: 2 NumNgrams: 8799 NumDocuments: 154

查看前五个n-g。

topkngrams(包,5)
ans =5×3表Ngram计数NgramLength  ________________ _____ ___________ " 34 2你”“艺术”“我”“眼睛”15 2”你的“自我”14 2”你”“难道”13 2“我”自己的“13 2

把字格(“你”“艺术”)而且(“你”“”)从模型。查看新的前5个n-g。

ngrams = [...“你”“艺术”“你”“难道”];袋= removeNgrams(袋、ngrams);topkngrams(包,5)
ans =5×3表Ngram计数NgramLength  _________________ _____ ___________ " 我的“眼睛”15 2”你的“自我”14 2”我“的“13 2”你的“甜”12 2”你“爱”11 2

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,词之间用空格隔开。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建bag-of-n-grams模型。

袋= bagOfNgrams(文档)
计数:[154x8799 double]词汇:[“最公平的”“生物”“欲望”…[8799x2 string] ngramlength: 2 NumNgrams: 8799 NumDocuments: 154

查看模型中的前10个n-grams。

bag.Ngrams (1:10,:)
ans =10 x2字符串"最美丽的" "生物" "生物" "欲望" "欲望" "增加" "增加" "因此" "因此" "美人" "美人" "玫瑰" "玫瑰" "可能" "可能" "永远" "永远" "死" "死"成熟"

从模型中删除第9和第10个n-g。查看前10个n-grams的新列表。

Idx = [9 10];袋= removeNgrams(袋、idx);bag.Ngrams (1:10,:)
ans =10 x2字符串"最美丽的" "生物" "生物" "欲望" "欲望" "增加" "增加" "因此" "因此" "美人" "美人" "玫瑰" "玫瑰" "可能" "可能" "永远" "成熟" "时间" "时间" "死亡"

输入参数

全部折叠

输入n克袋模型,指定为bagOfNgrams对象。

要删除的n个字符,指定为字符串数组、字符向量或字符向量的单元格数组。

如果ngrams是字符串数组还是单元格数组,那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn-g的个数,和maxN是最大n元的长度。如果ngrams是字符向量,则它表示单个单词(unigram)。

的价值ngrams (i, j)j这句话语法。如果单词的数量n值小于maxN,则剩下的项th排ngrams是空的。

例子:[" " "”;“榜样”;“例子”“”)

数据类型:字符串|字符|细胞

要删除的n个克的索引,指定为数值索引的向量或逻辑索引的向量。的指标idx对应的行袋里。Ngrams

例子:[1 5 10]

版本历史

介绍了R2018a

Baidu
map