什么是文本分析工具箱?
文本分析工具箱™提供了从文档中提取文本、预处理原始文本、可视化文本以及对文本数据执行机器学习的工具。典型的工作流程首先从文档(如PDF和Microsoft)导入文本数据®词®文件,然后从数据中提取有意义的单词。一旦对文本进行预处理,就可以以多种方式与数据进行交互,包括将文本转换为数字表示,并使用字云或散点图可视化文本。
使用文本分析工具箱创建的功能还可以与来自其他数据源的功能相结合,以构建利用文本、数字、音频和其他类型数据的机器学习模型。可以导入预先训练的单词嵌入模型,例如word2vec、FastText和GloVe格式,以将数据集中的单词映射到它们对应的单词向量。您还可以使用LDA和LSA等机器学习算法执行主题建模和降维。
要开始将大量文本数据转换为有意义的见解,下载免费试用版的文本分析工具箱。
文本分析工具箱提供了从文档中提取文本、预处理原始文本、可视化文本和对文本数据执行机器学习的工具。
您可以使用文本分析工具箱来分析来自维护报告、操作日志、财务文档、网络和社交媒体来源的数据。
您可以从各种来源(包括Microsoft Word、Microsoft Excel和PDF)提取原始文本,并使用词云查看单词的相对频率和交互式散点图,以了解单词之间的数字关系。
文本分析工具箱提供了预处理原始文本的功能,如删除常用单词和标点符号,并将文档标记为单个单词或短语。
一旦文本被预处理,将文本转换为数字表示可以让您进行更多的分析和可视化,以了解词频,包括:
- 用来比较字数的直方图
- 袋的话和Ngrams来实现高效的可视化和计算
- 以及用于文本挖掘和机器学习的TF-IDF模型
统计和机器学习算法可以与文本分析一起使用,以执行主题建模,以识别文档中的主题,对文档进行分类并进行预测。
您可以训练机器学习模型,或者使用预先训练的单词嵌入模型,如word2vec、FastText和GloVe。
在本例中,使用Latent Dirichlet分配算法构建一个包含风暴报告中的60个主题的主题模型,以识别损害和天气模式。
当您拥有大量文档时,还可以使用深度学习算法来构建精确的分类器,并使用并行计算来加速文本处理和训练。
有关文本分析工具箱的更多信息,请参阅产品页面,或选择下面的链接。
您也可以从以下列表中选择网站:
如何获得最佳的网站性能
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。