帮助中心帮助中心

文本数据准备

文本数据导入MATLAB^®和预处理分析

文本分析工具箱™工具处理原始文本来源包括设备日志,新闻,调查,运营商报告,和社交媒体。使用这些工具从流行的文件格式中提取文本,原始文本进行预处理,提取单个词或多字短语(- gram),将文本转换成数值表示,并建立统计模型。为一个例子展示如何开始,明白了准备文本数据进行分析。

文本分析工具箱支持语言英语、日语、德语,韩语。大多数文本分析工具箱函数处理从其他语言文本。有关更多信息,请参见语言的注意事项。

功能

导入和导出

`extractFileText`	从PDF阅读文本,微软词、HTML和纯文本文件
`extractHTMLText`	从HTML中提取文本
`readPDFFormData`	读取数据从PDF表单
`writeTextDocument`	写文档文本文件

HTML解析

`htmlTree`	解析HTML树
`findElement`	发现在HTML元素树
`getAttribute`	阅读HTML属性的HTML树的根节点
`ismissing`	找到HTML树没有值
`字符串`	解析HTML树转换为字符串

文档预处理

`tokenizedDocument`	数组标记化的文档进行文本分析
`erasePunctuation`	从文本和文档删除标点符号
`eraseTags`	从文本删除HTML和XML标记
`eraseURLs`	擦除HTTP和HTTPS url从文本
`removeStopWords`	从文档删除停用词
`removeShortWords`	从文件或删除短词bag-of-words模型
`removeLongWords`	从文件或删除长单词bag-of-words模型
`removeWords`	删除选中的文字从文档或bag-of-words模型
`normalizeWords`	茎或lemmatize单词
`replaceWords`	替代词在文档中
`replaceNgrams`	在文档中替换字格
`stopWords`	停止词列表
`decodeHTMLEntities`	HTML和XML实体转换成字符
`较低的`	将文档转换成小写
`上`	将文档转换成大写

令牌的细节

`上下文`	文档搜索单词或语法出现在上下文
`tokenDetails`	标记化的文档中标记数组的细节
`addSentenceDetails`	句子数字添加到文档
`addPartOfSpeechDetails`	词性标记添加到文档
`addLemmaDetails`	引理形式的标记添加到文档
`addLanguageDetails`	语言标识符添加到文档
`addEntityDetails`	实体标记添加到文档
`addDependencyDetails`	语法依赖细节添加到文档
`addTypeDetails`	令牌类型的细节添加到文档
`splitSentences`	文本分割成句子
`corpusLanguage`	发现语言的文本
`缩写`	常见的缩写词表
`topLevelDomains`	顶级域名列表

单词和语法计数

`bagOfWords`	Bag-of-words模型
`bagOfNgrams`	Bag-of-n-grams模型
`addDocument`	添加文档bag-of-words或bag-of-n-grams模型
`removeDocument`	把文件从bag-of-words或bag-of-n-grams模型
`removeInfrequentWords`	从bag-of-words模型删除单词计数较低
`removeInfrequentNgrams`	除去bag-of-n-grams很少看到字格模型
`removeNgrams`	把字格从bag-of-n-grams模型
`removeEmptyDocuments`	删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型
`topkwords`	最重要的是单词bag-of-words模型或LDA的话题
`topkngrams`	最常见的字格
`编码`	编码矩阵的词或语法方面的文件
`tfidf`	术语Frequency-Inverse文档频率(tf-idf)矩阵
`加入`	结合多个bag-of-words或bag-of-n-grams模型

拼写检查和编辑距离

`用语`	正确的拼写单词
`editDistance`	找到两个字符串之间的编辑距离或文档
`editDistanceSearcher`	编辑距离最近邻搜索者
`knnsearch`	通过编辑距离找到最近的邻居
`rangesearch`	通过编辑距离范围找到最近的邻居
`splitGraphemes`	字符串分割成字母

文档操作和转换

`docfun`	功能适用于词汇的文档
`containsWords`	检查单词是否文件的成员
`containsNgrams`	检查语法是否文件的成员
`包含`	检查模式文档的子串
`+`	附加文件
`取代`	替换文件中的子字符串
`regexprep`	使用正则表达式替换文本单词的文档
`doclength`	文档在文档数组的长度
`doc2cell`	将文档转换成字符串向量的单元阵列
`joinWords`	通过加入的话将文档转换为字符串
`字符串`	标量文档转换为字符串向量

Unicode

`textanalytics.unicode.nfc`	Unicode组成规格化形式(NFC)
`textanalytics.unicode.nfd`	Unicode分解规范化形式(NFD)
`textanalytics.unicode.nfkc`	Unicode兼容性组成规格化形式(NFKC)
`textanalytics.unicode.nfkd`	Unicode兼容性分解规范化形式(NFKD)
`textanalytics.unicode.UTF32`	Unicode utf - 32字符串表示
`characterCategories`	Unicode字符类别
`十六进制`	utf - 32表示转换为十六进制值
`字符串`	utf - 32表示转换为字符串

主题

进口

从文件中提取文本数据
这个例子展示了如何从文本中提取文本数据,HTML, Microsoft®Word, PDF, CSV, Microsoft Excel®文件并将其导入MATLAB®进行分析。
解析HTML并提取文本内容
这个例子展示了如何解析HTML代码和提取特定元素的文本内容。
用于文本分析的数据集
发现数据集各种文本分析任务。

预处理

准备文本数据进行分析
这个例子展示了如何创建一个函数,清洗和预处理文本数据进行分析。
分析包含Emojis文本数据
这个例子展示了如何分析包含emojis文本数据。
正确的拼写在文档中
这个例子展示了如何使用Hunspell正确拼写文档。
创建扩展字典拼写校正
这个例子展示了如何创建一个Hunspell扩展字典拼写校正。
创建自定义拼写校正函数使用编辑距离搜索者
这个例子展示了如何使用编辑距离搜索正确的拼写和已知的词汇。
使用语法依赖解析分析句子结构
这个例子展示了如何使用语法从一个句子中提取信息依赖解析。

语言支持

语言的注意事项
信息使用文本分析工具箱功能,为其他语言。
日本语言支持
日本支持文本信息分析工具。
分析日本文本数据
这个例子展示了如何导入,准备和分析日本文本数据使用主题模型。
德国语言支持
德国支持文本信息分析工具。
分析德国文本数据
这个例子展示了如何导入,准备和分析德国文本数据使用主题模型。

特色的例子

从文件中提取文本数据

从文件中提取文本数据

从文本中提取文本数据、HTML、Microsoft®Word, PDF, CSV, Microsoft Excel®文件并将其导入MATLAB®进行分析。

打开生活的脚本

准备文本数据进行分析

准备文本数据进行分析

创建一个函数,清洗和预处理文本数据进行分析。

打开生活的脚本

分析包含Emojis文本数据

分析包含Emojis文本数据

分析包含emojis文本数据。

打开生活的脚本