一个用于文本分析的词嵌入模型
Word2vec是单词嵌入最流行的实现之一。它用于将单词的分布式表示形式创建为数字向量。Word2vec将文本转换为捕获语义和单词之间关系的向量。语义的一个例子是意大利和罗马的关系如何类似于法国和巴黎的关系,即意大利-罗马+巴黎≈法国。
文本分析工作流程:使用word2vec将文本转换为数字
典型的文本分析工作流程包括预处理、将文本转换为数字和建立模型。单词嵌入(如word2vec)是将文本转换为数字的常用方法之一。其他将文本转换为数字的方法有:
与其他方法相比,word2vec的优势在于它能够识别相似的单词。像word2vec这样的词嵌入在许多文本分析应用程序中显示了更好的准确性。
Word嵌入替代word2vec
除了word2vec之外,其他流行的词嵌入实现是GloVe和FastText.这些实现之间的区别在于所使用的算法类型和用于训练以创建模型的初始文本语料库。Word2vec使用连续bag-of-words(CBOW)和跳过克算法训练初始文本语料库。
您可以在工作流中使用现有的预先训练的单词嵌入模型,例如word2vec。或者,您也可以创建自己的单词嵌入模型。需要考虑以下几点:
- 预先训练的模型,如word2vec,使入门变得容易,但可能缺乏高精度文本分析应用程序所需的特定领域的单词。
- 创建自定义模型更加耗时,但是自定义模型在特定于领域的应用程序中可能执行得更好。
您还可以在深度学习网络中包含预先训练过的单词嵌入层,如word2vec,并为特定的应用继续训练它。
文本分析工具箱™,用于与MATLAB一起使用®,具有读取由word2vec、GloVe和生成的单词嵌入的功能FastText与wordEmbedding对象。
要了解关于使用word2vec和使用文本数据构建模型的更多信息,请参见文本分析工具箱.
例子和如何
软件参考
参见:自然语言处理,情绪分析,MATLAB文本挖掘,数据科学,深度学习,深度学习工具箱™,统计和机器学习工具箱™,预测性维护工具箱™,语法