文本分析工具箱

分析和建模文本数据

获得免费试用

查看价格

文本分析工具箱™提供了用于预处理、分析和建模文本数据的算法和可视化。使用工具箱创建的模型可用于情感分析、预测性维护和主题建模等应用程序。

文本分析工具箱包括用于处理来自设备日志、新闻提要、调查、操作员报告和社交媒体等来源的原始文本的工具。您可以从流行的文件格式提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示以及构建统计模型。

使用诸如LSA、LDA和词嵌入等机器学习技术，您可以从高维文本数据集中找到集群并创建特征。使用“文本分析工具箱”创建的功能可以与来自其他数据源的功能相结合，以构建利用文本、数字和其他类型数据的机器学习模型。

开始:

什么是文本分析工具箱?

文档

开始使用MATLAB中的文本分析

下载白皮书

导入和可视化文本数据

从社交媒体、新闻源、设备日志、报告和调查等来源提取文本数据。

提取文本数据

将文本数据导入MATLAB^®从单个文件或大型文件集合，包括PDF、HTML和Microsoft^®词^®和Excel^®文件。

从文件中提取文本数据

解析HTML和提取文本内容

分析包含表情符号的文本数据

从microsoftword文档集合中提取文本。

可视化文本

使用词云和文本散点图可视化地探索文本数据集。

使用单词云可视化文本数据

使用文本散点图可视化单词嵌入

单词云显示使用字体大小和颜色的单词的相对频率。

语言支持

文本分析工具箱为英语、日语、德语和韩语提供特定于语言的预处理功能。大多数函数也适用于其他语言的文本。

语言支持

分析日语文本数据

检测文本语言

分析德语文本数据

导入、准备和分析日语文本。

预处理文本数据

从原始文本中提取有意义的词。

纯文本数据

应用高级过滤功能来删除无关的内容，如url、HTML标记和标点符号，并纠正拼写。

为分析准备文本数据

从文本和文档中删除标点符号

从文本中删除HTTP和HTTPS url

正确拼写文件

简化原始文本(左)，使用最有意义的单词(右)。

过滤停止词和正常化词根形式

在分析中优先考虑有意义的文本数据，过滤掉常见单词、频繁或不频繁出现的单词以及非常长或非常短的单词。减少词汇量，专注于文档更广泛的含义或情感阻止单词的词根形式或词根化到字典形式。

从文档中删除停止词

词干或词根化单词

阻止

词元化

从文档中删除像“a”和“of”这样的停止词。

提取语言特征

使用标记化算法自动将原始文本分割为单词集合。为上下文添加句子边界、词性细节和其他相关信息。

通过标记化将文本分割为单词

为文档添加词性标签

命名实体识别

使用语法依赖分析分析句子结构

向标记化的文档添加词性和句子细节。

将文本转换为数字格式

将文本数据转换为数字形式，以用于机器学习和深度学习。

词,语法计数

计算词频统计信息以数字表示文本数据。

使用多词短语分析文本数据

术语频率逆文档频率(tf-idf)矩阵

识别并可视化模型中最频繁出现的单词。

词嵌入和编码

训练词嵌入模型，如word2vec连续词袋模型(CBOW)和skip-gram模型。导入预训练模型，包括fastText和GloVe。

使用文本散点图可视化单词嵌入

预训练的FastText词嵌入

映射词到嵌入向量

Bag-of-Words(鞠躬)

使用词嵌入在文本散点图中可视化集群。

文本数据的机器学习

使用机器学习算法执行主题建模、情感分析、分类、降维和文档摘要提取。

主题建模

使用潜在狄利克雷分配(LDA)和潜在语义分析(LSA)等机器学习算法，发现和可视化大型文本数据集中的潜在模式、趋势和复杂关系。

使用主题模型分析文本数据

为LDA模型选择主题数量

比较LDA求解器

识别风暴报告数据中的主题。

文档摘要与关键字提取

自动从一个或多个文档中提取摘要和相关关键词，并评估文档的相似性和重要性。

从文件中摘录摘要

使用TextRank从文本数据中提取关键字

基于BM25算法的文档相似度

文档评分与TextRank算法

从文本中提取摘要。

情绪分析

识别文本数据中表达的态度和意见，以将语句分类为积极、中立或消极。建立可以实时预测情绪的模型。

分析文本中的情感

训练一个情感分类器

生成领域特定的情感词汇

识别预测积极情绪和消极情绪的词汇。

基于文本数据的深度学习

执行情绪分析，分类，摘要和文本生成使用深度学习算法。

变压器模型

利用BERT、FinBERT和GPT-2等转换器模型对文本数据执行迁移学习，以完成情感分析、分类和摘要等任务。

MATLAB变压器模型

用于文本数据迁移学习的变压器模型。

文本分类

使用可以通过深度学习识别文本类别的词嵌入对文本描述进行分类。

使用机器学习创建简单的文本分类模型

使用深度学习分类文本数据

使用自定义小批量数据存储对内存不足的文本数据进行分类

训练深度神经网络对文本数据进行分类。

文本生成

使用深度学习根据观察到的文本生成新的文本。

逐字符生成文本

使用Word嵌入层生成文本

使用字符嵌入层生成文本

使用简·奥斯汀的文本生成傲慢与偏见以及深度学习LSTM网络。

产品资源:

文档功能技术文章用户故事产品需求发布说明视频和网络研讨会例子

获得免费试用

30天的探索，触手可及。

现在就开始

准备好购买了吗?

获取价格信息，探索相关产品。2022世界杯八强谁会赢？

查看价格联系销售

你是学生吗?

您的学校可能已经通过校园范围的许可证提供了对MATLAB、Simulink和附加产品的访问。2022世界杯八强谁会赢？

得到MATLAB

接下来是什么?

文档

开始使用MATLAB中的文本分析

备忘单

开始文本分析工具箱

免费资源

文本机器学习:MATLAB中的文本分析入门