帮助中心帮助中心
MeCab标记化的选项
一个mecabOptions对象指定日文和韩文标记化的附加选项。
mecabOptions
要使用指定的MeCab令牌化选项进行令牌化,请使用“TokenizeMethod”选择tokenizedDocument.
“TokenizeMethod”
tokenizedDocument
选择= mecabOptions
选项= mecabOptions(名称、值)
例子
选项= mecabOptions创建一个MeCab标记选项设置,使用标记日文的默认值。
选项= mecabOptions
选项
选项= mecabOptions (名称,值)另外设置额外的属性使用一个或多个名称-值对参数。
选项= mecabOptions (名称,值)
名称,值
全部展开
模型
经过训练的模型(MeCab字典)的路径,指定为字符串标量或字符向量。
默认值是指向日语标记化内部字典的路径。
例子:“C: \ myDict”
“C: \ myDict”
数据类型:字符|字符串
字符
字符串
UserModel
""
包含模型扩展名(MeCab用户字典)的文件.dic文件),指定为字符串标量或字符向量。
.dic
例子:“C: \ myFile.dic”
“C: \ myFile.dic”
LemmaExtractor
@textanalytics.ja.mecabToLemma
从MeCab应答中提取引理的函数,指定为函数句柄。
函数必须有形式lemmata =乐趣(话说,信息),在那里单词是符号和的字符串向量吗信息是具有以下字段的结构体:
lemmata =乐趣(话说,信息)
单词
信息
功能相同大小的符号的字符串向量单词包含了MeCab的ChaSen格式的输出行,但没有拆分令牌本身。
功能
PartOfSpeech-词典中用于词性分类的数字代码。
PartOfSpeech
输出lemmata字符串数组的大小是否与单词包含提取的引理。
lemmata
默认的引理提取器是textanalytics.ja.mecabToLemma函数。
textanalytics.ja.mecabToLemma
数据类型:function_handle
function_handle
POSExtractor
@textanalytics.ja.mecabToPOS
函数从MeCab应答中提取词性信息,指定为函数句柄。
函数必须有形式posTags =乐趣(话说,信息),在那里单词是符号和的字符串向量吗信息是具有以下字段的结构体:
posTags =乐趣(话说,信息)
输出posTags类别数组的大小是否与单词包含从以下类别中提取的词性标记:
posTags
形容词
adposition
副词
助动词
coord-conjunction
决定因素
感叹词
名词
数字
代词
专有名词
标点符号
象征
动词
其他
默认的词性信息提取器是textanalytics.ja.mecabToPOS函数。
textanalytics.ja.mecabToPOS
NERExtractor
@textanalytics.ja.mecabToNER
函数从MeCab应答中提取命名实体信息,指定为函数句柄。
函数必须有形式实体=乐趣(话说,信息),在那里单词是符号和的字符串向量吗信息是具有以下字段的结构体:
实体=乐趣(话说,信息)
输出实体类别数组的大小是否与单词包含从以下类别中提取的实体:
实体
走眼
人
组织
位置
默认的词性信息提取器是textanalytics.ja.mecabToNER函数。
textanalytics.ja.mecabToNER
全部折叠
创建一个mecabOptions对象,其中包含日文标记化的默认选项。
C:\Program Files\MATLAB\R2019b\sys\share\dict- ipaddic " UserModel: "" LemmaExtractor: @textanalytics.ja。mecabToLemma POSExtractor: @textanalytics.ja。mecabToPOS NERExtractor: @textanalytics.ja.mecabToNER
使用自定义MeCab选项标记日语文本。
创建日文文本的字符串数组。
str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”];
创建一个mecabOptions对象,并将用户模型指定为.dic文件使用“UserModel”选择。
“UserModel”
选择= mecabOptions (“UserModel”,“myFile.dic”)
Model: "C:\Program Files\MATLAB\R2019b\sys\share\dict- ipaddic " UserModel: "myFile. "dic“LemmaExtractor: @textanalytics.ja。mecabToLemma POSExtractor: @textanalytics.ja。mecabToPOS NERExtractor: @textanalytics.ja.mecabToNER
方法使用指定的选项对文本进行标记“TokenizeMethod”选择。
文件= tokenizedDocument (str,“TokenizeMethod”选项)
documents = 4×1 tokenizedDocument: 6 token:恋に悩み,苦しむ。6代币:恋の悩みで苦しむ。10个代币:空に星が輝き,瞬いている。10代币:空の星が輝きを増している。
介绍了R2019b
tokenizedDocument|tokenDetails|addPartOfSpeechDetails|addEntityDetails|addLemmaDetails|normalizeWords|addLanguageDetails|corpusLanguage
tokenDetails
addPartOfSpeechDetails
addEntityDetails
addLemmaDetails
normalizeWords
addLanguageDetails
corpusLanguage
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。
选择一个网站,在可用的地方获得翻译的内容,并查看当地的活动和优惠。根据您的地理位置,我们建议您选择:.
您也可以从以下列表中选择网站:
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。
联系当地办事处