主要内容

mecabOptions

MeCab标记化的选项

描述

一个mecabOptions对象指定日文和韩文标记化的附加选项。

要使用指定的MeCab令牌化选项进行令牌化,请使用“TokenizeMethod”选择tokenizedDocument

创建

描述

例子

选项= mecabOptions创建一个MeCab标记选项设置,使用标记日文的默认值。

例子

选项= mecabOptions (名称,值另外设置额外的属性使用一个或多个名称-值对参数。

属性

全部展开

经过训练的模型(MeCab字典)的路径,指定为字符串标量或字符向量。

默认值是指向日语标记化内部字典的路径。

例子:“C: \ myDict”

数据类型:字符|字符串

包含模型扩展名(MeCab用户字典)的文件.dic文件),指定为字符串标量或字符向量。

例子:“C: \ myFile.dic”

数据类型:字符|字符串

从MeCab应答中提取引理的函数,指定为函数句柄。

函数必须有形式lemmata =乐趣(话说,信息),在那里单词是符号和的字符串向量吗信息是具有以下字段的结构体:

  • 功能相同大小的符号的字符串向量单词包含了MeCab的ChaSen格式的输出行,但没有拆分令牌本身。

  • PartOfSpeech-词典中用于词性分类的数字代码。

输出lemmata字符串数组的大小是否与单词包含提取的引理。

默认的引理提取器是textanalytics.ja.mecabToLemma函数。

数据类型:function_handle

函数从MeCab应答中提取词性信息,指定为函数句柄。

函数必须有形式posTags =乐趣(话说,信息),在那里单词是符号和的字符串向量吗信息是具有以下字段的结构体:

  • 功能相同大小的符号的字符串向量单词包含了MeCab的ChaSen格式的输出行,但没有拆分令牌本身。

  • PartOfSpeech-词典中用于词性分类的数字代码。

输出posTags类别数组的大小是否与单词包含从以下类别中提取的词性标记:

  • 形容词

  • adposition

  • 副词

  • 助动词

  • coord-conjunction

  • 决定因素

  • 感叹词

  • 名词

  • 数字

  • 代词

  • 专有名词

  • 标点符号

  • 象征

  • 动词

  • 其他

默认的词性信息提取器是textanalytics.ja.mecabToPOS函数。

数据类型:function_handle

函数从MeCab应答中提取命名实体信息,指定为函数句柄。

函数必须有形式实体=乐趣(话说,信息),在那里单词是符号和的字符串向量吗信息是具有以下字段的结构体:

  • 功能相同大小的符号的字符串向量单词包含了MeCab的ChaSen格式的输出行,但没有拆分令牌本身。

  • PartOfSpeech-词典中用于词性分类的数字代码。

输出实体类别数组的大小是否与单词包含从以下类别中提取的实体:

  • 走眼

  • 组织

  • 位置

  • 其他

默认的词性信息提取器是textanalytics.ja.mecabToNER函数。

数据类型:function_handle

例子

全部折叠

创建一个mecabOptions对象,其中包含日文标记化的默认选项。

选择= mecabOptions
C:\Program Files\MATLAB\R2019b\sys\share\dict- ipaddic " UserModel: "" LemmaExtractor: @textanalytics.ja。mecabToLemma POSExtractor: @textanalytics.ja。mecabToPOS NERExtractor: @textanalytics.ja.mecabToNER

使用自定义MeCab选项标记日语文本。

创建日文文本的字符串数组。

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”];

创建一个mecabOptions对象,并将用户模型指定为.dic文件使用“UserModel”选择。

选择= mecabOptions (“UserModel”“myFile.dic”
Model: "C:\Program Files\MATLAB\R2019b\sys\share\dict- ipaddic " UserModel: "myFile. "dic“LemmaExtractor: @textanalytics.ja。mecabToLemma POSExtractor: @textanalytics.ja。mecabToPOS NERExtractor: @textanalytics.ja.mecabToNER

方法使用指定的选项对文本进行标记“TokenizeMethod”选择。

文件= tokenizedDocument (str,“TokenizeMethod”选项)
documents = 4×1 tokenizedDocument: 6 token:恋に悩み,苦しむ。6代币:恋の悩みで苦しむ。10个代币:空に星が輝き,瞬いている。10代币:空の星が輝きを増している。

版本历史

介绍了R2019b

Baidu
map