主要内容

addEntityDetails

为文档添加实体标签

描述

使用addEntityDetails向文档中添加实体标记。

使用addEntityDetails检测文本中的人名、位置、组织和其他命名实体。这个过程被称为命名实体识别

支持英文、日文、德文、韩文。

例子

updatedDocuments= addEntityDetails (文档中的命名实体文档.该函数仅向缺少实体详细信息的令牌添加详细信息。来获取实体详细信息updatedDocuments,使用tokenDetails

updatedDocuments= addEntityDetails (文档名称,值还使用一个或多个名称-值对指定其他选项。

提示

使用addEntityDetails在使用较低的normalizeWordsremoveWords,removeStopWords函数作为addEntityDetails使用这些函数删除的信息。

例子

全部折叠

创建一个标记化文档数组。

STR = [“玛丽搬到了马萨诸塞州的纳蒂克。”“约翰在MathWorks使用MATLAB。”];documents = tokenizedDocument(str);

属性将实体详细信息添加到文档中addEntityDetails函数。方法返回的表中添加详细信息tokenDetails函数。查看前几个令牌的更新令牌详细信息。

文档= addEntityDetails(文档);tdetails = tokenDetails(文档)
tdetails =13×8表标记DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech实体_______________ ______________ ______________ __________ ___________ ________ ____________ ____________“Mary”1 1 1个字母,正名名词人“移动”1 1 1个字母,动词非实体“到”1 1 1个字母,副词非实体“Natick”1 1 1个字母,正名名词位置“,“1 1 1个标点符号,正名名词位置”“马萨诸塞”1 11 1个字母,正名名词位置”。“John”2 11 1个字母的专有名词“person”使用“2 11 1个字母的专有名词“MATLAB”2 11 1个字母的专有名词“other”在“2 11 1个字母的专有名词组织”“MathWorks”2 11 1个字母的专有名词组织”。2 11 1标点符号

查看带有实体标记的单词“人”“位置”“组织”,或“其他”.这些词是没有标记的词“走眼”

Idx = tdetails。实体~ =“走眼”;tdetails.Token (idx)
ans =6 x1字符串"Mary" "Natick" "Massachusetts" "John" "MATLAB" "MathWorks"

使用标记化日语文本tokenizedDocument

STR = [“マリ,さんはボストンからニュ,ヨ,クに引っ越しました。”“駅で鈴木さんに迎えに行きます。”“東京は大阪より大きいですか?”“東京に行った時,新宿や渋谷などいろいろな所を訪れました。”];documents = tokenizedDocument(str);

对于日文文本,该软件自动添加命名实体标签,因此不需要使用addEntityDetails函数。该软件检测人员姓名、位置、组织和其他命名实体。要查看实体详细信息,请使用tokenDetails函数。

tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  ____________ ______________ __________ _______ ________ ____________ ____________ __________ " マリー“1 1字母是专有名词“マリー“人”さん“1 1字母是名词“さんは“人”“1 1”字母ja adpositionは“走眼”ボストン“1 1字母是专有名词“ボストン“位置”から“1 1”字母ja adpositionから“走眼”ニューヨーク“1 1字母是专有名词“ニューヨークに“位置”“1 1”字母ja adpositionに“走眼”引っ越し“1 1字母ja动词“引っ越す”非实体

查看带有实体标签的单词“人”“位置”“组织”,或“其他”.这些单词是没有标记的单词“走眼”

Idx = tdetails。实体~ =“走眼”;tdetails (idx:)。令牌
ans =11 x1字符串“マリー”“さん”“ボストン”“ニューヨーク”“鈴木”“さん”“東京”“大阪”“東京”“新宿”“渋谷”

使用标记化德语文本tokenizedDocument

STR = [“恩斯特·佐格·冯·法兰克福·柏林。”"在沃尔夫斯堡的大众汽车。"];documents = tokenizedDocument(str);

要向德文文本添加实体标记,请使用addEntityDetails函数。此函数检测人员姓名、位置、组织和其他命名实体。

文档= addEntityDetails(文档);

要查看实体详细信息,请使用tokenDetails函数。

tdetails = tokenDetails(文档);头(tdetails)
标记DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech实体___________ ______________ ______________ __________ ___________ ________ ____________ __________“恩斯特”1 1 1个专有名词字母人“zog”1 1 1个动词非实体字母“von”1 1 1个附加非实体字母“法兰克福”1 1 1个附加非实体字母“nach”1 1 1个附加非实体字母“柏林”1 1 1个专有名词位置“。”1 1 1标点符号无实体“别拘束”2 1 1个字母动词无实体

查看带有实体标签的单词“人”“位置”“组织”,或“其他”.这些词是没有标记的词“走眼”

Idx = tdetails。实体~ =“走眼”;tdetails (idx:)
ans =5×8表标记DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech实体____________ ______________ ______________ __________ _______ ________ ____________ ____________“恩斯特”1 1 1个专有名词字母人“法兰克福”1 1 1个专有名词字母位置“柏林”1 1 1个专有名词字母位置“大众”2 1 1个专有名词字母组织“沃尔夫斯堡”2 1 1个专有名词字母位置

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。

在R2021a之前,使用逗号分隔每个名称和值,并将其括起来名字在报价。

例子:“DiscardKnownValues”,真的指定丢弃先前计算的详细信息并重新计算它们。

方法重新标记文档,指定为以下之一:

  • “实体”-转换命名实体识别的令牌。该函数将来自同一实体的令牌合并为单个令牌。

  • “没有”-不要重新标记文档。

选项,丢弃先前计算的详细信息并重新计算它们,指定为真正的

数据类型:逻辑

输出参数

全部折叠

更新后的文档,返回为tokenizedDocument数组中。来获取令牌详细信息updatedDocuments,使用tokenDetails

算法

全部折叠

语言细节

tokenizedDocument对象包含关于令牌的详细信息,包括语言详细信息。的行为由输入文档的语言细节决定addEntityDetails.的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。若要手动指定语言详细信息,请使用语言选择tokenizedDocument.要查看令牌详细信息,请使用tokenDetails函数。

版本历史

在R2019a中引入

Baidu
map