语言考虑- MATLAB和Simulink - MathWorks北欧 - 卡塔尔世界杯8强比赛直播

语言的注意事项

文本分析工具箱™支持英语，日语，德语和韩语。大多数文本分析工具箱功能也适用于其他语言的文本。下表总结了如何在其他语言中使用“文本分析工具箱”功能。

功能	语言的考虑	解决方案
标记	的`tokenizedDocument`函数只内置英语、日语、德语和韩语规则。对于英语和德语文本，使用`unicode的`的标记化方法`tokenizedDocument`使用基于Unicode的规则检测令牌^®标准附件#29[1]以及ICU标记器[2]，以更好地检测复杂的标记，如标签和url。对于日语和韩语文本，使用`“mecab”`标记化方法使用基于MeCab标记器的规则检测标记[3]．	对于其他语言，您仍然可以尝试使用`tokenizedDocument`．如果`tokenizedDocument`不能产生有用的结果，那么请尝试手动标记文本。要创建`tokenizedDocument`数组从手动标记文本，设置`“TokenizeMethod”`选项`“没有”`．有关更多信息，请参见`tokenizedDocument`．
停止删除单词	的`stopWords`和`removeStopWords`功能支持英语、日语、德语和韩语停止词。	要从其他语言中删除停止词，请使用`removeWords`并指定要删除的停止词。
句子检测	的`addSentenceDetails`函数根据标点符号和行号信息检测句子边界。对于英语和德语文本，该函数还使用传递给该函数的缩写列表。	对于其他语言，您可能需要指定自己的缩略语列表用于句子检测。要做到这一点，请使用`“缩写”`选择`addSentenceDetails`．有关更多信息，请参见`addSentenceDetails`．
词云	对于字符串输入，使用`wordcloud`和`wordCloudCounts`函数使用英语、日语、德语和韩语标记化、停止单词删除和单词规范化。	对于其他语言，您可能需要手动预处理文本数据，并在中指定惟一的单词和相应的大小`wordcloud`．中指定字的大小`wordcloud`，以包含唯一单词和相应大小的表格或数组的形式输入数据。有关更多信息，请参见`wordcloud`．
字嵌入	文件输入到`trainWordEmbedding`函数要求用空格分隔单词。	对于包含非英语文本的文件，您可能需要输入`tokenizedDocument`数组来`trainWordEmbedding`．要创建`tokenizedDocument`数组从预标记文本，使用`tokenizedDocument`函数，并设置`“TokenizeMethod”`选项`“没有”`．有关更多信息，请参见`trainWordEmbedding`．
关键字提取	的`rakeKeywords`功能只支持英语、日语、德语和韩语文本。	的`rakeKeywords`函数使用基于分隔符的方法提取关键字，以识别候选关键字。类给出的停止词和标点符号`stopWords`使用输入文档的语言细节所给出的语言作为分隔符。类型指定一组适当的分隔符`分隔符`和`MergingDelimiters`选项。有关更多信息，请参见`rakeKeywords`．
关键字提取	的`textrankKeywords`功能只支持英语、日语、德语和韩语文本。	的`textrankKeywords`函数通过基于词性标签识别候选关键字来提取关键字。类给出的词性标记`addPartOfSpeechDetails`功能，只支持英语，日语，德语和韩语文本。对于其他语言，请尝试使用`rakeKeywords`属性指定一组适当的分隔符`“分隔符”`和`“MergingDelimiters”`选项。有关更多信息，请参见`textrankKeywords`．