Bag-of-Words(鞠躬)

从文本中提取出特征建立模型对自然语言处理(NLP)应用程序

bag-of-words(弓)模型是一种最简单的特征提取技术,用在许多自然语言处理(NLP)应用程序,比如文本分类、情绪分析,主题建模。Bag-of-words由数出现的次数是独一无二的特性,比如文档中单词和符号。

例子

在这个例子中,MATLAB®函数bagOfWords创建一个bag-of-words模型从抽象的数学论文发表在arXiv的集合。可视化模型的最简单的方法之一是通过绘制一个词云使用MATLAB函数wordcloud(袋)。文字显示在大字体和橙色是最主要的(经常)bag-of-words模型。

词云从bag-of-words模型。
词云从bag-of-words模型。

何时使用Bag-of-Words模型

Bag-of-words很容易理解和实现。因此,它通常是第一个方法用于与文本数据建立模型。然而,bag-of-words也有一些局限性,包括:

  • 缺乏上下文:Bag-of-words模型不保存在文档中出现的顺序的功能,在某些情况下可以把重要的信息。例如,“这是一个美好的一天”,“这是一个美好的一天”会被认为相当于如果不考虑上下文,分析文本数据。
  • 不可预测的模型质量从一个文档:包括所有功能bag-of-words模型可以提高模型的大小,导致稀疏和数值不稳定。注意文档的预处理文本通常需要建立一个有用的bag-of-words模型。

替代Bag-of-Words模型

一些好的模型替代没有bag-of-words一样的固有模式的局限性:

然而,bag-of-words很容易理解和实现,足以让许多用例。了解更多关于bag-of-words和其他建模技术对文本数据,明白了文本分析工具箱™使用MATLAB。

参见:自然语言处理,文本分析,情绪分析,word2vec,文本挖掘与MATLAB,词元化,阻止,语法,数据科学,深度学习,ngram

Baidu
map