主要内容

removeStopWords

从文档中删除停止词

描述

像“a”、“and”、“to”和“the”(被称为停止词)这样的单词会给数据添加噪音。使用此函数可以在分析前去除停止词。

该功能支持英语、日语、德语和韩语文本。学习如何使用removeStopWords其他语言请参见语言的注意事项

例子

newDocuments= removeStopWords (文档)的停止词中删除tokenizedDocument数组文档。函数在默认情况下使用stopWords功能根据语言细节的文档和不区分大小写。

要删除自定义单词列表,请使用removeWords函数。

newDocuments= removeStopWords (文档、“IgnoreCase”错误)方法给出的停止词列表,删除大小写匹配的停止词stopWords函数。

提示

使用removeStopWords在使用之前normalizeWords函数作为removeStopWords使用被此函数删除的信息。

例子

全部折叠

从使用的文档数组中删除停止词removeStopWords。的tokenizedDocument函数检测到文档是英文的,所以removeStopWords删除英文停止词。

文件= tokenizedDocument ([“一个短句的例子”“第二个短句”]);newDocuments = removeStopWords(文档)
newDocuments = 2x1 tokenizedDocument: 3个token:示例短句3个token:第二个短句

日文符号化使用tokenizedDocument。该功能自动检测日文。

str = [“ここは静かなので,とても穏やかです”“企業内の顧客デタを利用し,今年の売り上げを調べることが出来た。”,私は先生です。私は英語を教えています。”];文件= tokenizedDocument (str);

使用删除停止词removeStopWords。函数使用的语言细节来自文档来确定要删除哪一种语言的停止词。

文件= removeStopWords(文档)
文件= 3 x1 tokenizedDocument: 4令牌:静か,とても穏やか10令牌:企業顧客データ利用,今年売り上げ調べる出来。5个token:先生。英語教え。

标记化德语文本使用tokenizedDocument。该功能自动检测德语文本。

str = [“早安。Wie geht es dir?”“Heute wird ein guter Tag。”];文件= tokenizedDocument (str)
documents = 2x1 tokenizedDocument: 8 token: Guten Morgen。Wie geht es dir ?6代币:Heute wird ein guter Tag。

删除停止词使用removeStopWords函数。函数使用文档中的语言细节来确定要删除的语言停止词。

文件= removeStopWords(文档)
documents = 2x1 tokenizedDocument: 5个token: Guten Morgen。可以吗?5代币:Heute wird guter Tag。

输入参数

全部折叠

输入文档,指定为atokenizedDocument数组中。

输出参数

全部折叠

输出文档,返回为tokenizedDocument数组中。

更多关于

全部折叠

语言的注意事项

stopWordsremoveStopWords函数只支持英语、日语、德语和韩语停止单词。

要从其他语言中删除停顿词,使用removeWords并指定自己要删除的停止词。

算法

全部折叠

语言细节

tokenizedDocument对象包含关于令牌的详细信息,包括语言细节。的语言细节决定了的行为removeStopWords。的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。若要手动指定语言细节,请使用语言选择tokenizedDocument。要查看令牌详细信息,请使用tokenDetails函数。

版本历史

介绍了R2018b

Baidu
map