语言的注意事项
文本分析工具箱™支持英语,日语,德语和韩语。大多数文本分析工具箱功能也适用于其他语言的文本。下表总结了如何在其他语言中使用“文本分析工具箱”功能。
功能 | 语言的考虑 | 解决方案 |
---|---|---|
标记 | 的 |
对于其他语言,您仍然可以尝试使用 有关更多信息,请参见 |
停止删除单词 | 的 |
要从其他语言中删除停止词,请使用 |
句子检测 | 的 |
对于其他语言,您可能需要指定自己的缩略语列表用于句子检测。要做到这一点,请使用 有关更多信息,请参见 |
词云 | 对于字符串输入,使用 |
对于其他语言,您可能需要手动预处理文本数据,并在中指定惟一的单词和相应的大小 中指定字的大小 有关更多信息,请参见 |
字嵌入 | 文件输入到 |
对于包含非英语文本的文件,您可能需要输入 要创建 有关更多信息,请参见 |
关键字提取 | 的 |
的 类型指定一组适当的分隔符 有关更多信息,请参见 |
的 |
的 对于其他语言,请尝试使用 有关更多信息,请参见 |
语言的特性
单词和N-Gram计数
的bagOfWords
和bagOfNgrams
功能的支持tokenizedDocument
不考虑语言的输入。如果你有tokenizedDocument
数组包含您的数据,然后您可以使用这些函数。
建模与预测
的fitlda
和fitlsa
功能的支持bagOfWords
和bagOfNgrams
不考虑语言的输入。如果你有bagOfWords
或bagOfNgrams
对象,然后可以使用这些函数。
的trainWordEmbedding
功能支持tokenizedDocument
或文件输入,而不考虑语言。如果你有tokenizedDocument
数组或包含正确格式的数据的文件,则可以使用此函数。
参考文献
[1]Unicode文本分割.https://www.unicode.org/reports/tr29/
[3]MeCab:另一个词性和形态分析仪.https://taku910.github.io/mecab/
另请参阅
stopWords
|removeWords
|normalizeWords
|bagOfWords
|bagOfNgrams
|tokenizedDocument
|fitlda
|fitlsa
|wordcloud
|addSentenceDetails
|addLanguageDetails