文本数据准备
文本数据导入MATLAB®和预处理分析
文本分析工具箱™工具处理原始文本来源包括设备日志,新闻,调查,运营商报告,和社交媒体。使用这些工具从流行的文件格式中提取文本,原始文本进行预处理,提取单个词或多字短语(- gram),将文本转换成数值表示,并建立统计模型。为一个例子展示如何开始,明白了准备文本数据进行分析。
文本分析工具箱支持语言英语、日语、德语,韩语。大多数文本分析工具箱函数处理从其他语言文本。有关更多信息,请参见语言的注意事项。
功能
主题
进口
- 从文件中提取文本数据
这个例子展示了如何从文本中提取文本数据,HTML, Microsoft®Word, PDF, CSV, Microsoft Excel®文件并将其导入MATLAB®进行分析。 - 解析HTML并提取文本内容
这个例子展示了如何解析HTML代码和提取特定元素的文本内容。 - 用于文本分析的数据集
发现数据集各种文本分析任务。
预处理
- 准备文本数据进行分析
这个例子展示了如何创建一个函数,清洗和预处理文本数据进行分析。 - 分析包含Emojis文本数据
这个例子展示了如何分析包含emojis文本数据。 - 正确的拼写在文档中
这个例子展示了如何使用Hunspell正确拼写文档。 - 创建扩展字典拼写校正
这个例子展示了如何创建一个Hunspell扩展字典拼写校正。 - 创建自定义拼写校正函数使用编辑距离搜索者
这个例子展示了如何使用编辑距离搜索正确的拼写和已知的词汇。 - 使用语法依赖解析分析句子结构
这个例子展示了如何使用语法从一个句子中提取信息依赖解析。