文本分析工具箱

文本分析工具箱

分析和建模文本数据

开始:

导入和可视化文本数据

从社交媒体、新闻提要、设备日志、报告和调查等来源提取文本数据。

提取文本数据

导入文本数据到MATLAB中®从单个文件或大型文件集合,包括PDF、HTML和Microsoft®®和Excel®文件。

从microsoftword文档集合中提取文本。

从microsoftword文档集合中提取文本。

可视化文本

使用字云和文本散点图可视化地探索文本数据集。

词云显示使用字体大小和颜色的单词的相对频率。

词云显示使用字体大小和颜色的单词的相对频率。

语言支持

文本分析工具箱为英语、日语、德语和韩语提供特定语言的预处理功能。大多数函数也可以处理其他语言的文本。

导入、准备和分析日语文本。

导入、准备和分析日语文本。

预处理文本数据

从原始文本中提取有意义的词。

清洁文本数据

应用高级过滤功能来删除无关的内容,如url、HTML标记和标点符号,并纠正拼写。

简化原始文本以使用最有意义的单词。

简化原始文本(左)以处理最有意义的单词(右)。

过滤停止词并将词规范化为根形式

在您的分析中,过滤掉常用词、太频繁或不频繁出现的词、非常长或非常短的词,对有意义的文本数据进行优先级排序。减少词汇量,将注意力集中在更广泛的意义上阻止将单词还原为词根形式或将其还原为字典形式。

从文档中删除“a”和“of”等停顿词。

从文档中删除“a”和“of”等停顿词。

语言特征提取

使用标记算法自动将原始文本分割为单词集合。为上下文添加句子边界、词性细节和其他相关信息。

向标记文档添加词性和句子细节。

向标记文档添加词性和句子细节。

将文本转换为数字格式

将文本数据转换为数字形式,用于机器学习和深度学习。

词,语法计数

计算词频统计数据,以数字表示文本数据。

识别并可视化模型中最常出现的单词。

识别并可视化模型中最常出现的单词。

单词嵌入和编码

训练词嵌入模型,如word2vec连续词袋(CBOW)和跳过克模型。导入预训练的模型,包括fastText和GloVe。

使用单词嵌入在文本散点图中可视化集群。

使用单词嵌入在文本散点图中可视化集群。

文本数据的机器学习

使用机器学习算法执行主题建模、情感分析、分类、降维和文档摘要提取。

主题建模

使用潜在狄利克雷分配(LDA)和潜在语义分析(LSA)等机器学习算法,发现和可视化大量文本数据中的底层模式、趋势和复杂关系。

识别风暴报告数据中的主题。

识别风暴报告数据中的主题。

文档摘要和关键字提取

自动从一个或多个文档中提取摘要和相关关键词,并评估文档的相似性和重要性。

从文本中提取摘要。

从文本中提取摘要。

情绪分析

识别文本数据中表达的态度和意见,将陈述分为积极的、中立的或消极的。建立可以实时预测情绪的模型。

识别预测积极情绪和消极情绪的词汇。

识别预测积极情绪和消极情绪的词汇。

基于文本数据的深度学习

执行情绪分析,分类,总结,和文本生成使用深度学习算法。

变压器模型

利用BERT、FinBERT和GPT-2等转换器模型对文本数据执行迁移学习,以完成诸如情感分析、分类和总结等任务。

用于文本数据迁移学习的变压器模型。

用于文本数据迁移学习的变压器模型。

训练深度神经网络对文本数据进行分类。

训练深度神经网络对文本数据进行分类。

文本生成

使用深度学习在观察到的文本的基础上生成新的文本。

使用简·奥斯汀的《傲慢与偏见》和深度学习LSTM网络生成文本。

使用简·奥斯汀的文本生成《傲慢与偏见》以及一个深度学习LSTM网络。

Baidu
map