bagOfNgrams
Bag-of-n-grams模型
描述
一个n-g - bag模型记录了一个集合的每个文档中每个n-gram出现的次数。n-gram是一个集合n连续的字。
bagOfNgrams
不将文本拆分为文字。要创建标记化文档的数组,请参见tokenizedDocument
。
创建
语法
描述
输入参数
属性
对象的功能
编码 |
将文档编码为word或n-gram计数的矩阵 |
tfidf |
Term Frequency - inverse Document Frequency (tf-idf)矩阵 |
topkngrams |
最常见的字格 |
addDocument |
将文档添加到单词袋或n-grams袋模型中 |
removeDocument |
从单词袋或n-grams袋模型中移除文档 |
removeEmptyDocuments |
从标记化文档数组、单词包模型或n-grams包模型中删除空文档 |
removeNgrams |
从bag-of-n-grams模型中删除n-grams |
removeInfrequentNgrams |
从bag-of-n-grams模型中删除不常见的n-grams |
加入 |
结合多个单词袋或n-grams袋模型 |
wordcloud |
从文本、单词袋模型、n-grams袋模型或LDA模型创建词云图 |
例子
版本历史
介绍了R2018a