addEntityDetails

为文档添加实体标签

折叠所有页面

语法

updatedDocuments = addEntityDetails(文档)

updatedDocuments = addEntityDetails(文档，名称，值)

描述

使用addEntityDetails向文档中添加实体标记。

使用addEntityDetails检测文本中的人名、位置、组织和其他命名实体。这个过程被称为命名实体识别．

支持英文、日文、德文、韩文。

例子

updatedDocuments= addEntityDetails (文档）中的命名实体文档．该函数仅向缺少实体详细信息的令牌添加详细信息。来获取实体详细信息updatedDocuments,使用tokenDetails．

updatedDocuments= addEntityDetails (文档，名称,值）还使用一个或多个名称-值对指定其他选项。

提示

使用addEntityDetails在使用较低的，上，normalizeWords，removeWords,removeStopWords函数作为addEntityDetails使用这些函数删除的信息。

例子

全部折叠

向文档添加命名实体标签

打开实时脚本

创建一个标记化文档数组。

STR = [“玛丽搬到了马萨诸塞州的纳蒂克。”“约翰在MathWorks使用MATLAB。”];documents = tokenizedDocument(str);

属性将实体详细信息添加到文档中addEntityDetails函数。方法返回的表中添加详细信息tokenDetails函数。查看前几个令牌的更新令牌详细信息。

文档= addEntityDetails(文档);tdetails = tokenDetails(文档)

tdetails =13×8表标记DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech实体_______________ ______________ ______________ __________ ___________ ________ ____________ ____________“Mary”1 1 1个字母，正名名词人“移动”1 1 1个字母，动词非实体“到”1 1 1个字母，副词非实体“Natick”1 1 1个字母，正名名词位置“，“1 1 1个标点符号，正名名词位置”“马萨诸塞”1 11 1个字母，正名名词位置”。“John”2 11 1个字母的专有名词“person”使用“2 11 1个字母的专有名词“MATLAB”2 11 1个字母的专有名词“other”在“2 11 1个字母的专有名词组织”“MathWorks”2 11 1个字母的专有名词组织”。2 11 1标点符号

查看带有实体标记的单词“人”，“位置”，“组织”,或“其他”．这些词是没有标记的词“走眼”．

Idx = tdetails。实体~ =“走眼”；tdetails.Token (idx)

ans =6 x1字符串"Mary" "Natick" "Massachusetts" "John" "MATLAB" "MathWorks"

为日语文本添加命名实体标签

打开实时脚本

使用标记化日语文本tokenizedDocument．

STR = [“マリ，さんはボストンからニュ，ヨ，クに引っ越しました。”“駅で鈴木さんに迎えに行きます。”“東京は大阪より大きいですか?”“東京に行った時，新宿や渋谷などいろいろな所を訪れました。”];documents = tokenizedDocument(str);

对于日文文本，该软件自动添加命名实体标签，因此不需要使用addEntityDetails函数。该软件检测人员姓名、位置、组织和其他命名实体。要查看实体详细信息，请使用tokenDetails函数。

tdetails = tokenDetails(文档);头(tdetails)

令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  ____________ ______________ __________ _______ ________ ____________ ____________ __________ " マリー“1 1字母是专有名词“マリー“人”さん“1 1字母是名词“さんは“人”“1 1”字母ja adpositionは“走眼”ボストン“1 1字母是专有名词“ボストン“位置”から“1 1”字母ja adpositionから“走眼”ニューヨーク“1 1字母是专有名词“ニューヨークに“位置”“1 1”字母ja adpositionに“走眼”引っ越し“1 1字母ja动词“引っ越す”非实体

查看带有实体标签的单词“人”，“位置”，“组织”,或“其他”．这些单词是没有标记的单词“走眼”．

Idx = tdetails。实体~ =“走眼”；tdetails (idx:)。令牌

ans =11 x1字符串“マリー”“さん”“ボストン”“ニューヨーク”“鈴木”“さん”“東京”“大阪”“東京”“新宿”“渋谷”

添加命名实体标签的德文文本

打开实时脚本

使用标记化德语文本tokenizedDocument．

STR = [“恩斯特·佐格·冯·法兰克福·柏林。”"在沃尔夫斯堡的大众汽车。"];documents = tokenizedDocument(str);

要向德文文本添加实体标记，请使用addEntityDetails函数。此函数检测人员姓名、位置、组织和其他命名实体。

文档= addEntityDetails(文档);

要查看实体详细信息，请使用tokenDetails函数。

tdetails = tokenDetails(文档);头(tdetails)

标记DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech实体___________ ______________ ______________ __________ ___________ ________ ____________ __________“恩斯特”1 1 1个专有名词字母人“zog”1 1 1个动词非实体字母“von”1 1 1个附加非实体字母“法兰克福”1 1 1个附加非实体字母“nach”1 1 1个附加非实体字母“柏林”1 1 1个专有名词位置“。”1 1 1标点符号无实体“别拘束”2 1 1个字母动词无实体

查看带有实体标签的单词“人”，“位置”，“组织”,或“其他”．这些词是没有标记的词“走眼”．

Idx = tdetails。实体~ =“走眼”；tdetails (idx:)

ans =5×8表标记DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech实体____________ ______________ ______________ __________ _______ ________ ____________ ____________“恩斯特”1 1 1个专有名词字母人“法兰克福”1 1 1个专有名词字母位置“柏林”1 1 1个专有名词字母位置“大众”2 1 1个专有名词字母组织“沃尔夫斯堡”2 1 1个专有名词字母位置

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后，但对的顺序无关紧要。

在R2021a之前，使用逗号分隔每个名称和值，并将其括起来名字在报价。

例子:“DiscardKnownValues”,真的指定丢弃先前计算的详细信息并重新计算它们。

`RetokenizeMethod`- - - - - -方法重新标记文档
`“实体”`(默认)|`“没有”`

方法重新标记文档，指定为以下之一:

“实体”-转换命名实体识别的令牌。该函数将来自同一实体的令牌合并为单个令牌。
“没有”-不要重新标记文档。

`DiscardKnownValues`- - - - - -选项放弃以前计算的详细信息
`假`(默认)|`真正的`

选项，丢弃先前计算的详细信息并重新计算它们，指定为真正的或假．

数据类型:逻辑

输出参数

全部折叠

`updatedDocuments`-更新文件
`tokenizedDocument`数组

更新后的文档，返回为tokenizedDocument数组中。来获取令牌详细信息updatedDocuments,使用tokenDetails．

算法

全部折叠

语言细节

tokenizedDocument对象包含关于令牌的详细信息，包括语言详细信息。的行为由输入文档的语言细节决定addEntityDetails．的tokenizedDocument函数，默认情况下，自动检测输入文本的语言。若要手动指定语言详细信息，请使用语言选择tokenizedDocument．要查看令牌详细信息，请使用tokenDetails函数。

版本历史

在R2019a中引入

另请参阅

addEntityDetails

语法

描述

例子

向文档添加命名实体标签

为日语文本添加命名实体标签

添加命名实体标签的德文文本

输入参数

文档- - - - - -输入文档tokenizedDocument数组

名称-值参数

RetokenizeMethod- - - - - -方法重新标记文档“实体”(默认)|“没有”

DiscardKnownValues- - - - - -选项放弃以前计算的详细信息假(默认)|真正的

输出参数

updatedDocuments-更新文件tokenizedDocument数组

算法

语言细节

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`RetokenizeMethod`- - - - - -方法重新标记文档
`“实体”`(默认)|`“没有”`

`DiscardKnownValues`- - - - - -选项放弃以前计算的详细信息
`假`(默认)|`真正的`

`updatedDocuments`-更新文件
`tokenizedDocument`数组