词元化

把单词简化成字典里的形式

词元化是一种文本规范化技术自然语言处理.词素化是通过词汇和词素分析来去除词缀的。例如,“building has floors”在词源化过程中被简化为“build have floor”。

词元化应用

lemmmization常用于:

  • 扩展搜索条件的信息检索
  • 降低文本分类、情感分析或主题建模中问题的维数

词元化与阻止

一个与引理化相关的方法,阻止,是基于简单的启发式规则。它通常会导致不是实际单词的词根或单词部分,而词元化总是返回有效的字典单词。

以下是词干化和词干化的例子。

实际的词 词元化 阻止
要求 要求 要求
应用 应用 应用

在MATLAB®,可以使用“normalizeWords”函数,并在样式选项中添加“lemma”。要了解更多关于使用lemmmization和用MATLAB用文本数据建立预测模型的信息,请参见文本分析工具箱™


例子和如何


软件参考

参见:自然语言处理情绪分析word2vec阻止语法MATLAB文本挖掘数据科学深度学习深度学习工具箱™统计和机器学习工具箱™

Baidu
map