将单词简化为词根形式
词干化是一种文本规范化技术自然语言处理这将单词简化为词根形式。词干主要是通过删除单词的词缀来完成的,这可能导致字典中的单词无效。
茎干通常用于:
- 信息检索,其中词根词用作同义词来扩展搜索条件
- 工程应用以降低维数,其中词干导致需要跟踪的单词更少,并在具有机器学习算法的模型中使用
波特的阻止算法
波特词干分析器算法是英语语言中最流行的词干分析器方法之一,它基于简单的启发式规则。这种词干分析方法很快,但不一定总是准确的。在随后的几年里,许多其他的算法被提出,但波特的词干算法由于其速度和简单,仍然很受欢迎。
阻止与词元化
一个相关的,但更复杂的方法是词元化.而相比,
- 词元化使用词汇和形态分析,词干推理使用简单的启发式规则
- 词元化返回单词的字典形式,而词干可能导致无效单词
词干化和词干化的区别如下所示。
实际的词 | 词元化 | 阻止 |
---|---|---|
要求 | 需要 | 要求 |
要求 | 需要 | 要求 |
要求 | 要求 | 要求 |
在MATLAB中,词干可以使用“normalizeWords”函数,默认样式选项为“stem”。要了解关于使用文本数据进行词干和构建模型的更多信息,请参见文本分析工具箱™.
例子和如何
软件参考
参见:自然语言处理,情绪分析,word2vec,语法,MATLAB文本挖掘,数据科学,深度学习,深度学习工具箱™,统计和机器学习工具箱™