Bag-of-Words(鞠躬)

从文本中提取特征,为自然语言处理(NLP)应用建立模型

单词袋(BoW)模型是最简单的特征提取技术之一,在许多自然语言处理(NLP)应用程序中使用,如文本分类、情感分析和主题建模。单词袋是通过计算文档中诸如单词和符号等独特特征的出现次数来构建的。

例子

在本例中,MATLAB®函数bagOfWords从arXiv上发表的数学论文摘要集合中创建一个单词包模型。可视化模型最简单的方法之一是使用MATLAB函数绘制单词云wordcloud(袋).在单词袋模型中,以较大字体和橙色显示的单词是最主要(最频繁)的。

词汇云来自词汇袋模型。
词汇云来自词汇袋模型。

何时使用单词袋模型

单词袋很容易理解和实现。因此,它通常是使用文本数据构建模型的第一种方法。然而,词袋有几个限制,包括:

  • 缺乏上下文:词袋模型不保留文档中特征的出现顺序,这在某些情况下可能会删除重要信息。例如,如果在分析文本数据时不考虑上下文,“this is a good day”和“this is a good day”将被认为是等价的。
  • 不可预测的模型质量:在单词袋模型中包含文档中的所有特征会增加模型的大小,导致稀疏性和数值不稳定性。通常需要对文档文本进行仔细预处理,以构建有用的单词袋模型。

词汇袋模型的替代方案

一些好的模型替代方案并不像单词袋那样具有固有的模型局限性:

然而,单词袋易于理解和实现,对于许多用例来说已经足够了。要了解更多关于单词袋和文本数据的其他建模技术的信息,请参见文本分析工具箱™与MATLAB一起使用。

参见:自然语言处理文本分析情绪分析word2vecMATLAB文本挖掘词元化阻止语法数据科学深度学习ngram

Baidu
map