Word2vec是什么?- MATLAB和Simulink - 卡塔尔世界杯8强比赛直播

用于文本分析的词嵌入模型

Word2vec是最流行的词嵌入实现之一。它用于将单词创建为数字向量的分布式表示。Word2vec将文本转换为捕捉语义和单词之间关系的向量。语义的一个例子是意大利和罗马之间的关系与法国和巴黎之间的关系相似，因此意大利-罗马+巴黎≈法国。

典型的文本分析工作流程包括预处理、将文本转换为数字和模型构建。词嵌入(如word2vec)是将文本转换为数字的常用方法之一。其他将文本转换为数字的方法有:

与其他方法相比，word2vec的优势在于它能够识别相似的单词。像word2vec这样的词嵌入在许多文本分析应用程序中显示了更好的准确性。

除了word2vec之外，其他流行的词嵌入实现还有GloVe和FastText．这些实现之间的区别在于使用的算法类型和用于训练创建模型的初始文本语料库。Word2vec使用连续bag-of-words(CBOW)和skip-gram算法用于训练初始文本语料库。

您可以在工作流中使用现有的预先训练好的单词嵌入模型，例如word2vec。或者，您也可以创建自己的单词嵌入模型。需要考虑的事情有:

你也可以在深度学习网络中包含一个预先训练好的词嵌入层，比如word2vec，并针对特定的应用继续训练它。

文本分析工具箱™，用于MATLAB^®，具有读取由word2vec、GloVe和生成的词嵌入的功能FastText与wordEmbedding对象。

要了解有关使用word2vec和使用文本数据构建模型的更多信息，请参见文本分析工具箱．

什么是文本分析工具箱?

得到资源