bagOfWords
Bag-of-words模型
创建
描述
创建一个空的词袋模型。袋
= bagOfWords
使用in中的单词创建单词袋模型袋
= bagOfWords (uniqueWords
,计数
)uniqueWords
对应的频率也算进去了计数
。
输入参数
属性
对象的功能
编码 |
将文档编码为word或n-gram计数的矩阵 |
tfidf |
Term Frequency - inverse Document Frequency (tf-idf)矩阵 |
topkwords |
词袋模型或LDA主题中最重要的词 |
addDocument |
将文档添加到单词袋或n-grams袋模型中 |
removeDocument |
从单词袋或n-grams袋模型中移除文档 |
removeEmptyDocuments |
从标记化文档数组、单词包模型或n-grams包模型中删除空文档 |
removeWords |
从文档或单词袋模型中删除选定的单词 |
removeInfrequentWords |
从单词包模型中删除计数低的单词 |
加入 |
结合多个单词袋或n-grams袋模型 |
wordcloud |
从文本、单词袋模型、n克袋模型或LDA模型创建词云图 |
例子
提示
如果您打算为您的工作使用一个保留的测试集,那么在使用之前对您的文本数据进行分区
bagOfWords
。否则,词汇袋模型可能会对你的分析产生偏见。。
版本历史
介绍了R2017b