removeStopWords

从文档中删除停止词

在页面中全部折叠

语法

newDocuments = removeStopWords(文档)

newDocuments = removeStopWords(文档、“IgnoreCase”假)

描述

像“a”、“and”、“to”和“the”(被称为停止词)这样的单词会给数据添加噪音。使用此函数可以在分析前去除停止词。

该功能支持英语、日语、德语和韩语文本。学习如何使用removeStopWords其他语言请参见语言的注意事项。

例子

newDocuments= removeStopWords (文档)的停止词中删除tokenizedDocument数组文档。函数在默认情况下使用stopWords功能根据语言细节的文档和不区分大小写。

要删除自定义单词列表，请使用removeWords函数。

newDocuments= removeStopWords (文档、“IgnoreCase”错误)方法给出的停止词列表，删除大小写匹配的停止词stopWords函数。

提示

使用removeStopWords在使用之前normalizeWords函数作为removeStopWords使用被此函数删除的信息。

例子

全部折叠

删除Stop Words from文档

打开生活的脚本

从使用的文档数组中删除停止词removeStopWords。的tokenizedDocument函数检测到文档是英文的，所以removeStopWords删除英文停止词。

文件= tokenizedDocument ([“一个短句的例子”“第二个短句”]);newDocuments = removeStopWords(文档)

newDocuments = 2x1 tokenizedDocument: 3个token:示例短句3个token:第二个短句

删除日语停顿词

打开生活的脚本

日文符号化使用tokenizedDocument。该功能自动检测日文。

str = [“ここは静かなので，とても穏やかです”“企業内の顧客デタを利用し，今年の売り上げを調べることが出来た。”，私は先生です。私は英語を教えています。”];文件= tokenizedDocument (str);

使用删除停止词removeStopWords。函数使用的语言细节来自文档来确定要删除哪一种语言的停止词。

文件= removeStopWords(文档)

文件= 3 x1 tokenizedDocument: 4令牌:静か,とても穏やか10令牌:企業顧客データ利用,今年売り上げ調べる出来。5个token:先生。英語教え。

从文档中删除德语Stop Words

打开生活的脚本

标记化德语文本使用tokenizedDocument。该功能自动检测德语文本。

str = [“早安。Wie geht es dir?”“Heute wird ein guter Tag。”];文件= tokenizedDocument (str)

documents = 2x1 tokenizedDocument: 8 token: Guten Morgen。Wie geht es dir ?6代币:Heute wird ein guter Tag。

删除停止词使用removeStopWords函数。函数使用文档中的语言细节来确定要删除的语言停止词。

文件= removeStopWords(文档)

documents = 2x1 tokenizedDocument: 5个token: Guten Morgen。可以吗?5代币:Heute wird guter Tag。

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为atokenizedDocument数组中。

输出参数

全部折叠

`newDocuments`——输出文档
`tokenizedDocument`数组

输出文档，返回为tokenizedDocument数组中。

算法

全部折叠

语言细节

tokenizedDocument对象包含关于令牌的详细信息，包括语言细节。的语言细节决定了的行为removeStopWords。的tokenizedDocument函数，默认情况下，自动检测输入文本的语言。若要手动指定语言细节，请使用语言选择tokenizedDocument。要查看令牌详细信息，请使用tokenDetails函数。

版本历史

介绍了R2018b

另请参阅

removeStopWords

语法

描述

例子

删除Stop Words from文档

删除日语停顿词

从文档中删除德语Stop Words

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输出参数

`newDocuments`——输出文档
`tokenizedDocument`数组

更多关于

语言的注意事项

算法

语言细节

版本历史

另请参阅

主题

removeStopWords

语法

描述

例子

删除Stop Words from文档

删除日语停顿词

从文档中删除德语Stop Words

输入参数

文档- - - - - -输入文档tokenizedDocument数组

输出参数

newDocuments——输出文档tokenizedDocument数组

更多关于

语言的注意事项

算法

语言细节

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`newDocuments`——输出文档
`tokenizedDocument`数组