建立多词语言模型,并用机器学习对其进行分析
n-gram是文本文档中n个连续项的集合,可能包括单词、数字、符号和标点符号。N-gram模型在许多与单词序列相关的文本分析应用程序中非常有用,例如在情感分析、文本分类和文本生成中。N-gram建模是用于将文本从非结构化格式转换为结构化格式的众多技术之一。n-gram的另一种替代方法是单词嵌入技术,例如word2vec。
例子
一个包含n-gram的语言模型可以通过计算每个独特的n-gram在文档中出现的次数来创建。这被称为abag-of-n-grams模型。在MATLAB中,可以使用“bagOfNgrams”函数创建一个n克的袋子模型。
一旦建立了语言模型,它就可以与机器学习算法一起使用,为文本分析应用程序构建预测模型。要了解更多关于n-grams和使用文本数据构建模型的知识,请参见文本分析工具箱™,与MATLAB一起使用®。
例子和如何
软件参考
参见:自然语言处理,情绪分析,word2vec,MATLAB文本挖掘,数据科学,深度学习,深度学习工具箱™,预见性维护工具箱™