建模和预测

使用主题模型和单词嵌入开发预测模型

要查找集群并从高维文本数据集中提取特征，可以使用机器学习技术和模型，如LSA、LDA和单词嵌入。您可以将使用文本分析工具箱™创建的功能与来自其他数据源的功能结合起来。通过这些特性，您可以构建利用文本、数字和其他类型数据的机器学习模型。

功能

单词和N-Gram计数

`bagOfWords`	Bag-of-words模型
`bagOfNgrams`	Bag-of-n-grams模型
`addDocument`	将文档添加到单词袋或n克袋模型中
`removeDocument`	从单词袋或n-grams袋模型中删除文档
`removeInfrequentWords`	从单词袋模型中删除计数低的单词
`removeInfrequentNgrams`	从n克袋模型中去掉不常见的n克
`removeWords`	从文档或单词袋模型中删除所选单词
`removeNgrams`	从n克袋模型中移除n克
`removeEmptyDocuments`	从标记文档数组、单词包模型或n-grams包模型中删除空文档
`topkwords`	词汇袋模型或LDA主题中最重要的词汇
`topkngrams`	最常见的字格
`编码`	将文档编码为单词或n-gram计数的矩阵
`tfidf`	术语频率-反文档频率(tf-idf)矩阵
`加入`	组合多个单词袋或n个单词袋模型

情绪分析

`vaderSentimentScores`	情绪评分与VADER算法
`ratioSentimentScores`	情绪评分采用比率规则

字嵌入和编码

`fastTextWordEmbedding`	预训练fastText字嵌入
`wordEncoding`	单词编码模型映射单词到索引和返回
`doc2sequence`	将文档转换为深度学习的序列
`wordEmbeddingLayer`	深度学习网络的词嵌入层
`word2vec`	映射字到嵌入向量
`word2ind`	将字映射到编码索引
`vec2word`	映射嵌入向量到字
`ind2word`	将编码索引映射到单词
`isVocabularyWord`	测试单词是否是单词嵌入或编码的成员
`readWordEmbedding`	从文件中读取字嵌入
`trainWordEmbedding`	火车字嵌入
`writeWordEmbedding`	写word嵌入文件
`wordEmbedding`	词嵌入模型映射词到向量和返回

文档摘要与相似度

`extractSummary`	从文件中提取摘要
`rakeKeywords`	使用RAKE提取关键词
`textrankKeywords`	使用TextRank提取关键字
`bleuEvaluationScore`	用BLEU相似度评分评价翻译或摘要
`rougeEvaluationScore`	用ROUGE相似度评分对翻译或摘要进行评价
`bm25Similarity`	文档与BM25算法相似
`cosineSimilarity`	文档相似度与余弦相似度
`textrankScores`	文档评分与TextRank算法
`lexrankScores`	使用LexRank算法进行文档评分
`mmrScores`	使用最大边际相关(MMR)算法进行文档评分

主题建模与降维

`fitlda`	拟合潜狄利克雷分配(LDA)模型
`fitlsa`	符合LSA模型
`重新开始`	恢复LDA模型拟合
`logp`	记录LDA模型的对数概率和拟合优度
`预测`	预测文档的顶级LDA主题
`变换`	将文档转换到低维空间
`ldaModel`	潜狄利克雷分配(LDA)模型
`lsaModel`	潜在语义分析(LSA)模型

可视化

`wordcloud`	从文本、单词包模型、n-grams包模型或LDA模型创建词云图
`textscatter`	文本的二维散点图
`textscatter3`	文本的三维散点图

主题

分类和建模

创建简单预处理函数
这个例子展示了如何创建一个函数来清理和预处理文本数据以供分析。
创建简单的文本分类模型
这个例子展示了如何使用单词袋模型训练一个简单的文本分类器的词频计数。
使用文档嵌入对文档进行分类
这个例子展示了如何通过使用单词嵌入将文档转换为特征向量来训练文档分类器。
使用多词短语分析文本数据
此示例演示如何使用n-gram频率计数分析文本。
使用主题模型分析文本数据
这个例子展示了如何使用潜狄利克雷分配(LDA)主题模型来分析文本数据。
选择LDA模型的主题数量
这个例子展示了如何为潜在狄利克雷分配(LDA)模型决定一个合适的主题数量。
比较LDA解决者
这个例子展示了如何通过比较拟合优度和拟合模型所花费的时间来比较潜在的狄利克雷分配(LDA)求解器。
使用LDA模型可视化文档集群
这个例子展示了如何使用潜狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型和t-SNE图可视化文档的聚类。
可视化LDA主题相关性
这个例子展示了如何在潜狄利克雷分配(LDA)主题模型中分析主题之间的相关性。
可视化LDA主题和文档标签之间的相关性
这个示例展示了如何拟合潜狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型并可视化LDA主题与文档标签之间的相关性。
创建共生网络
此示例演示如何使用单词袋模型创建共现网络。