主要内容

文本数据准备

文本数据导入MATLAB®和预处理分析

文本分析工具箱™工具处理原始文本来源包括设备日志,新闻,调查,运营商报告,和社交媒体。使用这些工具从流行的文件格式中提取文本,原始文本进行预处理,提取单个词或多字短语(- gram),将文本转换成数值表示,并建立统计模型。为一个例子展示如何开始,明白了准备文本数据进行分析

文本分析工具箱支持语言英语、日语、德语,韩语。大多数文本分析工具箱函数处理从其他语言文本。有关更多信息,请参见语言的注意事项

功能

全部展开

extractFileText 从PDF阅读文本,微软、HTML和纯文本文件
extractHTMLText 从HTML中提取文本
readPDFFormData 读取数据从PDF表单
writeTextDocument 写文档文本文件
htmlTree 解析HTML树
findElement 发现在HTML元素树
getAttribute 阅读HTML属性的HTML树的根节点
ismissing 找到HTML树没有值
字符串 解析HTML树转换为字符串
tokenizedDocument 数组标记化的文档进行文本分析
erasePunctuation 从文本和文档删除标点符号
eraseTags 从文本删除HTML和XML标记
eraseURLs 擦除HTTP和HTTPS url从文本
removeStopWords 从文档删除停用词
removeShortWords 从文件或删除短词bag-of-words模型
removeLongWords 从文件或删除长单词bag-of-words模型
removeWords 删除选中的文字从文档或bag-of-words模型
normalizeWords 茎或lemmatize单词
replaceWords 替代词在文档中
replaceNgrams 在文档中替换字格
stopWords 停止词列表
decodeHTMLEntities HTML和XML实体转换成字符
较低的 将文档转换成小写
将文档转换成大写
上下文 文档搜索单词或语法出现在上下文
tokenDetails 标记化的文档中标记数组的细节
addSentenceDetails 句子数字添加到文档
addPartOfSpeechDetails 词性标记添加到文档
addLemmaDetails 引理形式的标记添加到文档
addLanguageDetails 语言标识符添加到文档
addEntityDetails 实体标记添加到文档
addDependencyDetails 语法依赖细节添加到文档
addTypeDetails 令牌类型的细节添加到文档
splitSentences 文本分割成句子
corpusLanguage 发现语言的文本
缩写 常见的缩写词表
topLevelDomains 顶级域名列表
bagOfWords Bag-of-words模型
bagOfNgrams Bag-of-n-grams模型
addDocument 添加文档bag-of-words或bag-of-n-grams模型
removeDocument 把文件从bag-of-words或bag-of-n-grams模型
removeInfrequentWords 从bag-of-words模型删除单词计数较低
removeInfrequentNgrams 除去bag-of-n-grams很少看到字格模型
removeNgrams 把字格从bag-of-n-grams模型
removeEmptyDocuments 删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型
topkwords 最重要的是单词bag-of-words模型或LDA的话题
topkngrams 最常见的字格
编码 编码矩阵的词或语法方面的文件
tfidf 术语Frequency-Inverse文档频率(tf-idf)矩阵
加入 结合多个bag-of-words或bag-of-n-grams模型
用语 正确的拼写单词
editDistance 找到两个字符串之间的编辑距离或文档
editDistanceSearcher 编辑距离最近邻搜索者
knnsearch 通过编辑距离找到最近的邻居
rangesearch 通过编辑距离范围找到最近的邻居
splitGraphemes 字符串分割成字母
docfun 功能适用于词汇的文档
containsWords 检查单词是否文件的成员
containsNgrams 检查语法是否文件的成员
包含 检查模式文档的子串
+ 附加文件
取代 替换文件中的子字符串
regexprep 使用正则表达式替换文本单词的文档
doclength 文档在文档数组的长度
doc2cell 将文档转换成字符串向量的单元阵列
joinWords 通过加入的话将文档转换为字符串
字符串 标量文档转换为字符串向量
textanalytics.unicode.nfc Unicode组成规格化形式(NFC)
textanalytics.unicode.nfd Unicode分解规范化形式(NFD)
textanalytics.unicode.nfkc Unicode兼容性组成规格化形式(NFKC)
textanalytics.unicode.nfkd Unicode兼容性分解规范化形式(NFKD)
textanalytics.unicode.UTF32 Unicode utf - 32字符串表示
characterCategories Unicode字符类别
十六进制 utf - 32表示转换为十六进制值
字符串 utf - 32表示转换为字符串

主题

进口

预处理

语言支持

Baidu
map