德国语言支持
本主题总结了支持德语文本的文本分析工具箱™功能。有关如何分析德语文本数据的示例,请参见分析德语文本数据.
标记
的tokenizedDocument
功能自动检测德语输入。另外,设置“语言”
选项tokenizedDocument
来“德”
.此选项指定令牌的语言细节。要查看令牌的语言详细信息,请使用tokenDetails
.的行为由这些语言细节决定removeStopWords
,addPartOfSpeechDetails
,normalizeWords
,addSentenceDetails
,addEntityDetails
令牌上的函数。
德国标记文本
用标记化德语文本tokenizedDocument
.该功能自动检测德语文本。
str = [“早安。我得到了什么?”“Heute wird ein guter Tag。”];文件= tokenizedDocument (str)
documents = 2x1 tokenizedDocument: 8 token: Guten Morgen。我得到了dir ?6代币:Heute weird ein guter Tag。
句子检测
要检测文档中的句子结构,请使用addSentenceDetails
.您可以使用缩写
函数帮助创建要检测的缩写的自定义列表。
为德语文档添加句子细节
用标记化德语文本tokenizedDocument
.
str = [“我是古腾·摩根,施密特医生。Geht es Ihnen wieder besser?”“Heute wird ein guter Tag。”];文件= tokenizedDocument (str);
在使用的文档中添加句子细节addSentenceDetails
.函数将语句号添加到返回的表中tokenDetails
.查看前几个令牌的更新令牌详细信息。
= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails, 10)
令牌DocumentNumber SentenceNumber LineNumber类型语言 _________ ______________ ______________ __________ ___________ ________ " “摩根”好“1 1 1字母de 1 1 1字母德”,“1 1 1标点de”“1 1 1字母de”博士。”1 1 1标点符号de "施密特" 1 1 1个字母de "。"1 1 1标点符号"Geht" 1 2 1个字母"es" 1 2 1个字母"Ihnen" 1 2 1个字母"
德语缩略语表
查看德语缩写表。使用此表可以帮助创建缩略语的自定义表,以便在使用时进行句子检测addSentenceDetails
.
台=缩写(“语言”,“德”);头(台)
缩写用法____________ _______ "A.T" regular "ABl" regular "Abb" regular "Abdr" regular "Abf" regular "Abfl" regular "Abh" regular "Abk" regular
词性细节
要向文档添加德语词性细节,请使用addPartOfSpeechDetails
函数。
获取德语文本的词性细节
用标记化德语文本tokenizedDocument
.
str = [“早安。我得到了什么?”“Heute wird ein guter Tag。”];文件= tokenizedDocument (str)
documents = 2x1 tokenizedDocument: 8 token: Guten Morgen。我得到了dir ?6代币:Heute weird ein guter Tag。
要获得德语文本的词性细节,首先使用addPartOfSpeechDetails
.
= addPartOfSpeechDetails文件(文档);
要查看词性细节,请使用tokenDetails
函数。
tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言 ________ ______________ ______________ __________ ___________ ________ ____________ " 好“1 1 1字母de形容词“摩根”de名词1 1 1字母“”。1 1 1标点符号“Wie”1 2 1个字母副词“get”1 2 1个字母动词“es”1 2 1个字母代词“dir”1 2 1个字母代词“?”1 2 1标点de标点
命名实体识别
要向文档添加实体标记,请使用addEntityDetails
函数。
为德文文本添加命名实体标签
用标记化德语文本tokenizedDocument
.
str = ["恩斯特·佐格·冯·法兰克福·纳赫·柏林"“沃尔夫斯堡的大众汽车。”];文件= tokenizedDocument (str);
要向德文文本添加实体标记,请使用addEntityDetails
函数。该功能检测人名、地点、组织和其他已命名实体。
= addEntityDetails文件(文档);
要查看实体详细信息,请使用tokenDetails
函数。
tdetails = tokenDetails(文件);头(tdetails)
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech实体___________ ______________ ______________ __________ ___________ ________ ____________ __________ "Ernst" 1 1个字母de专有名词person "zog" 1 1个字母de动词非实体"von" 1 1个字母de专有名词非实体"Frankfurt" 1 1 1个字母de专有名词位置"nach" 1 1 1个字母de专有名词位置"Berlin" 1 1 1个字母de专有名词位置"1 1 1标点de标点非实体"别肃臣" 2 1 1个字母de动词非实体
查看带有entity标记的单词“人”
,“位置”
,“组织”
,或“其他”
.这些词是没有标记的词“走眼”
.
idx = tdetails。实体~ =“走眼”;tdetails (idx:)
ans =5×8表Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity ____________ ______________ ______________ __________ _______ ________ ____________ ____________ "Ernst" 1 1个字母的专有名词人"Frankfurt" 1 1 1个字母的专有名词位置"Berlin" 1 1 1个字母的专有名词位置"Volkswagen" 2 1 1个字母的名词组织"Wolfsburg" 2 1 1个字母的专有名词位置
停止词
若要根据令牌语言细节从文档中删除停止词,请使用removeStopWords
.欲获取德语停止词列表,请设置“语言”
选项stopWords
来“德”
.
从文档中删除德语停止词
用标记化德语文本tokenizedDocument
.该功能自动检测德语文本。
str = [“早安。我得到了什么?”“Heute wird ein guter Tag。”];文件= tokenizedDocument (str)
documents = 2x1 tokenizedDocument: 8 token: Guten Morgen。我得到了dir ?6代币:Heute weird ein guter Tag。
删除停止词使用removeStopWords
函数。该函数使用文档中的语言细节来确定要删除的语言停止词。
文件= removeStopWords(文档)
documents = 2x1 tokenizedDocument: 5个token: Guten morgan。可以吗?5代币:Heute weird guter Tag。
阻止
要根据令牌语言细节来词干令牌,请使用normalizeWords
.
遏制德国的文本
的标记化德语文本tokenizedDocument
函数。该功能自动检测德语文本。
str = [“早安。我得到了什么?”“Heute wird ein guter Tag。”];文件= tokenizedDocument (str);
阻止代币使用normalizeWords
.
文件= normalizeWords(文档)
documents = 2x1 tokenizedDocument: 8 token: gut morg。我得到了dir ?6个标记:heut wild ein gut tag。
语言的特性
单词和N-Gram计数
的bagOfWords
而且bagOfNgrams
功能的支持tokenizedDocument
不考虑语言的输入。如果你有tokenizedDocument
数组中包含您的数据,然后可以使用这些函数。
建模和预测
的fitlda
而且fitlsa
功能的支持bagOfWords
而且bagOfNgrams
不考虑语言的输入。如果你有bagOfWords
或bagOfNgrams
对象,然后可以使用这些函数。
的trainWordEmbedding
功能支持tokenizedDocument
或文件输入,而不考虑语言。如果你有tokenizedDocument
数组或包含正确格式的数据的文件,则可以使用此函数。
另请参阅
tokenizedDocument
|removeStopWords
|stopWords
|addPartOfSpeechDetails
|tokenDetails
|normalizeWords
|addLanguageDetails