lemmization是一种文本规范化技术自然语言处理。词素化运用词汇和形态分析来去除词缀。例如,“building has floors”在词根化后被简化为“build have floor”。
词元化通常用于:
词根化的一个相关方法,阻止,是基于简单的启发式规则。它经常导致词根或不是实际单词的单词部分,而词根化总是返回有效的字典单词。
词根化和词干化的例子如下所示。
在MATLAB®,可以使用样式选项为' lemma '的" normalizeWords "函数来完成lemmization。要了解更多关于使用lemmalization和用MATLAB建立文本数据预测模型的信息,请参见文本分析工具箱。
参见:自然语言处理,情绪分析,word2vec,阻止,语法,MATLAB文本挖掘,数据科学,深度学习,深度学习工具箱™,统计和机器学习工具箱™
开始使用MATLAB中的文本分析
选择网站
选择一个网站,在可用的地方获得翻译的内容,并查看当地的活动和优惠。根据您所在的位置,我们建议您选择:。
您也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
联系当地办事处