词元化

把单词还原成字典里的形式

lemmization是一种文本规范化技术自然语言处理。词素化运用词汇和形态分析来去除词缀。例如,“building has floors”在词根化后被简化为“build have floor”。

词元化应用

词元化通常用于:

  • 扩展搜索条件的信息检索
  • 降低文本分类、情感分析或主题建模中的问题的维数

词根化与词干化

词根化的一个相关方法,阻止,是基于简单的启发式规则。它经常导致词根或不是实际单词的单词部分,而词根化总是返回有效的字典单词。

词根化和词干化的例子如下所示。

实际的词 词元化 阻止
要求 要求 要求
应用 应用 应用

在MATLAB®,可以使用样式选项为' lemma '的" normalizeWords "函数来完成lemmization。要了解更多关于使用lemmalization和用MATLAB建立文本数据预测模型的信息,请参见文本分析工具箱


例子和如何


软件参考

参见:自然语言处理情绪分析word2vec阻止语法MATLAB文本挖掘数据科学深度学习深度学习工具箱™统计和机器学习工具箱™

Baidu
map