词元化是一种文本规范化技术自然语言处理.词素化是通过词汇和词素分析来去除词缀的。例如,“building has floors”在词源化过程中被简化为“build have floor”。
lemmmization常用于:
一个与引理化相关的方法,阻止,是基于简单的启发式规则。它通常会导致不是实际单词的词根或单词部分,而词元化总是返回有效的字典单词。
以下是词干化和词干化的例子。
在MATLAB®,可以使用“normalizeWords”函数,并在样式选项中添加“lemma”。要了解更多关于使用lemmmization和用MATLAB用文本数据建立预测模型的信息,请参见文本分析工具箱™.
参见:自然语言处理,情绪分析,word2vec,阻止,语法,MATLAB文本挖掘,数据科学,深度学习,深度学习工具箱™,统计和机器学习工具箱™
开始使用MATLAB中的文本分析
选择一个网站
选择一个网站,在可用的地方获得翻译的内容,并查看当地的活动和优惠。根据您的地理位置,我们建议您选择:.
您也可以从以下列表中选择网站:
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。
联系当地办事处