主要内容

建模和预测

使用主题模型和单词嵌入开发预测模型

要查找集群并从高维文本数据集中提取特征,可以使用机器学习技术和模型,如LSA、LDA和单词嵌入。您可以将使用文本分析工具箱™创建的功能与来自其他数据源的功能结合起来。通过这些特性,您可以构建利用文本、数字和其他类型数据的机器学习模型。

功能

全部展开

bagOfWords Bag-of-words模型
bagOfNgrams Bag-of-n-grams模型
addDocument 将文档添加到单词袋或n克袋模型中
removeDocument 从单词袋或n-grams袋模型中删除文档
removeInfrequentWords 从单词袋模型中删除计数低的单词
removeInfrequentNgrams 从n克袋模型中去掉不常见的n克
removeWords 从文档或单词袋模型中删除所选单词
removeNgrams 从n克袋模型中移除n克
removeEmptyDocuments 从标记文档数组、单词包模型或n-grams包模型中删除空文档
topkwords 词汇袋模型或LDA主题中最重要的词汇
topkngrams 最常见的字格
编码 将文档编码为单词或n-gram计数的矩阵
tfidf 术语频率-反文档频率(tf-idf)矩阵
加入 组合多个单词袋或n个单词袋模型
vaderSentimentScores 情绪评分与VADER算法
ratioSentimentScores 情绪评分采用比率规则
fastTextWordEmbedding 预训练fastText字嵌入
wordEncoding 单词编码模型映射单词到索引和返回
doc2sequence 将文档转换为深度学习的序列
wordEmbeddingLayer 深度学习网络的词嵌入层
word2vec 映射字到嵌入向量
word2ind 将字映射到编码索引
vec2word 映射嵌入向量到字
ind2word 将编码索引映射到单词
isVocabularyWord 测试单词是否是单词嵌入或编码的成员
readWordEmbedding 从文件中读取字嵌入
trainWordEmbedding 火车字嵌入
writeWordEmbedding 写word嵌入文件
wordEmbedding 词嵌入模型映射词到向量和返回
extractSummary 从文件中提取摘要
rakeKeywords 使用RAKE提取关键词
textrankKeywords 使用TextRank提取关键字
bleuEvaluationScore 用BLEU相似度评分评价翻译或摘要
rougeEvaluationScore 用ROUGE相似度评分对翻译或摘要进行评价
bm25Similarity 文档与BM25算法相似
cosineSimilarity 文档相似度与余弦相似度
textrankScores 文档评分与TextRank算法
lexrankScores 使用LexRank算法进行文档评分
mmrScores 使用最大边际相关(MMR)算法进行文档评分
fitlda 拟合潜狄利克雷分配(LDA)模型
fitlsa 符合LSA模型
重新开始 恢复LDA模型拟合
logp 记录LDA模型的对数概率和拟合优度
预测 预测文档的顶级LDA主题
变换 将文档转换到低维空间
ldaModel 潜狄利克雷分配(LDA)模型
lsaModel 潜在语义分析(LSA)模型
wordcloud 从文本、单词包模型、n-grams包模型或LDA模型创建词云图
textscatter 文本的二维散点图
textscatter3 文本的三维散点图

主题

分类和建模

情感分析与关键词提取

深度学习

语言支持

Baidu
map