文本分析工具箱™为文本数据的预处理、分析和建模提供了算法和可视化。使用工具箱创建的模型可以用于情感分析、预测性维护和主题建模等应用程序。
文本分析工具箱包括处理来自设备日志、新闻提要、调查、运营商报告和社交媒体等来源的原始文本的工具。您可以从流行的文件格式中提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示以及构建统计模型。
使用诸如LSA、LDA和单词嵌入等机器学习技术,您可以从高维文本数据集中找到集群并创建特征。使用文本分析工具箱创建的功能可以与来自其他数据源的功能相结合,以构建利用文本、数字和其他类型数据的机器学习模型。
开始:
提取文本数据
导入文本数据到MATLAB中®从单个文件或大型文件集合,包括PDF、HTML和Microsoft®词®和Excel®文件。
清洁文本数据
应用高级过滤功能来删除无关的内容,如url、HTML标记和标点符号,并纠正拼写。
单词嵌入和编码
训练词嵌入模型,如word2vec连续词袋(CBOW)和跳过克模型。导入预训练的模型,包括fastText和GloVe。
主题建模
使用潜在狄利克雷分配(LDA)和潜在语义分析(LSA)等机器学习算法,发现和可视化大量文本数据中的底层模式、趋势和复杂关系。
文档摘要和关键字提取
自动从一个或多个文档中提取摘要和相关关键词,并评估文档的相似性和重要性。
变压器模型
利用BERT、FinBERT和GPT-2等转换器模型对文本数据执行迁移学习,以完成诸如情感分析、分类和总结等任务。