mecabOptions

MeCab标记化的选项

在页面中全部展开

描述

一个mecabOptions对象指定日文和韩文标记化的附加选项。

要使用指定的MeCab令牌化选项进行令牌化，请使用“TokenizeMethod”选择tokenizedDocument．

创建

语法

选择= mecabOptions

选项= mecabOptions(名称、值)

描述

例子

选项= mecabOptions创建一个MeCab标记选项设置，使用标记日文的默认值。

例子

选项= mecabOptions (名称,值）另外设置额外的属性使用一个或多个名称-值对参数。

属性

全部展开

`模型`- - - - - -到训练模型的路径
字符串标量|特征向量

经过训练的模型(MeCab字典)的路径，指定为字符串标量或字符向量。

默认值是指向日语标记化内部字典的路径。

例子:“C: \ myDict”

数据类型:字符|字符串

`UserModel`- - - - - -包含模型扩展名的文件
`＂＂`(默认)|字符串标量|特征向量

包含模型扩展名(MeCab用户字典)的文件.dic文件)，指定为字符串标量或字符向量。

例子:“C: \ myFile.dic”

数据类型:字符|字符串

`LemmaExtractor`- - - - - -从MeCab应答中提取引理的函数
`@textanalytics.ja.mecabToLemma`(默认)|函数处理

从MeCab应答中提取引理的函数，指定为函数句柄。

函数必须有形式lemmata =乐趣(话说,信息),在那里单词是符号和的字符串向量吗信息是具有以下字段的结构体:

功能相同大小的符号的字符串向量单词包含了MeCab的ChaSen格式的输出行，但没有拆分令牌本身。
PartOfSpeech-词典中用于词性分类的数字代码。

输出lemmata字符串数组的大小是否与单词包含提取的引理。

默认的引理提取器是textanalytics.ja.mecabToLemma函数。

数据类型:function_handle

`POSExtractor`- - - - - -从MeCab应答中提取词性信息的函数
`@textanalytics.ja.mecabToPOS`(默认)|函数处理

函数从MeCab应答中提取词性信息，指定为函数句柄。

函数必须有形式posTags =乐趣(话说,信息),在那里单词是符号和的字符串向量吗信息是具有以下字段的结构体:

功能相同大小的符号的字符串向量单词包含了MeCab的ChaSen格式的输出行，但没有拆分令牌本身。
PartOfSpeech-词典中用于词性分类的数字代码。

输出posTags类别数组的大小是否与单词包含从以下类别中提取的词性标记:

形容词
adposition
副词
助动词
coord-conjunction
决定因素
感叹词
名词
数字
代词
专有名词
标点符号
象征
动词
其他

默认的词性信息提取器是textanalytics.ja.mecabToPOS函数。

数据类型:function_handle

`NERExtractor`- - - - - -从MeCab应答中提取命名实体信息的函数
`@textanalytics.ja.mecabToNER`(默认)|函数处理

函数从MeCab应答中提取命名实体信息，指定为函数句柄。

函数必须有形式实体=乐趣(话说,信息),在那里单词是符号和的字符串向量吗信息是具有以下字段的结构体:

功能相同大小的符号的字符串向量单词包含了MeCab的ChaSen格式的输出行，但没有拆分令牌本身。
PartOfSpeech-词典中用于词性分类的数字代码。

输出实体类别数组的大小是否与单词包含从以下类别中提取的实体:

走眼
人
组织
位置
其他

默认的词性信息提取器是textanalytics.ja.mecabToNER函数。

数据类型:function_handle

例子

全部折叠

创建MeCab选项对象

创建一个mecabOptions对象，其中包含日文标记化的默认选项。

选择= mecabOptions

C:\Program Files\MATLAB\R2019b\sys\share\dict- ipaddic " UserModel: "" LemmaExtractor: @textanalytics.ja。mecabToLemma POSExtractor: @textanalytics.ja。mecabToPOS NERExtractor: @textanalytics.ja.mecabToNER

指定用于标记化的MeCab用户字典

使用自定义MeCab选项标记日语文本。

创建日文文本的字符串数组。

str = [“恋に悩み，苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き，瞬いている。”“空の星が輝きを増している。”];

创建一个mecabOptions对象，并将用户模型指定为.dic文件使用“UserModel”选择。

选择= mecabOptions (“UserModel”，“myFile.dic”）

Model: "C:\Program Files\MATLAB\R2019b\sys\share\dict- ipaddic " UserModel: "myFile. "dic“LemmaExtractor: @textanalytics.ja。mecabToLemma POSExtractor: @textanalytics.ja。mecabToPOS NERExtractor: @textanalytics.ja.mecabToNER

方法使用指定的选项对文本进行标记“TokenizeMethod”选择。

文件= tokenizedDocument (str,“TokenizeMethod”选项)

documents = 4×1 tokenizedDocument: 6 token:恋に悩み，苦しむ。6代币:恋の悩みで苦しむ。10个代币:空に星が輝き，瞬いている。10代币:空の星が輝きを増している。

版本历史

介绍了R2019b

另请参阅

mecabOptions

描述

创建

语法

描述

属性

模型- - - - - -到训练模型的路径字符串标量|特征向量

UserModel- - - - - -包含模型扩展名的文件＂＂(默认)|字符串标量|特征向量

LemmaExtractor- - - - - -从MeCab应答中提取引理的函数@textanalytics.ja.mecabToLemma(默认)|函数处理

POSExtractor- - - - - -从MeCab应答中提取词性信息的函数@textanalytics.ja.mecabToPOS(默认)|函数处理

NERExtractor- - - - - -从MeCab应答中提取命名实体信息的函数@textanalytics.ja.mecabToNER(默认)|函数处理

例子

创建MeCab选项对象

指定用于标记化的MeCab用户字典

版本历史

另请参阅

主题

`模型`- - - - - -到训练模型的路径
字符串标量|特征向量

`UserModel`- - - - - -包含模型扩展名的文件
`＂＂`(默认)|字符串标量|特征向量

`LemmaExtractor`- - - - - -从MeCab应答中提取引理的函数
`@textanalytics.ja.mecabToLemma`(默认)|函数处理

`POSExtractor`- - - - - -从MeCab应答中提取词性信息的函数
`@textanalytics.ja.mecabToPOS`(默认)|函数处理

`NERExtractor`- - - - - -从MeCab应答中提取命名实体信息的函数
`@textanalytics.ja.mecabToNER`(默认)|函数处理