主要内容

erasePunctuation

删除文本和文档中的标点符号

描述

例子

newStr= erasePunctuation (str元素中的标点符号和符号str.该函数删除属于Unicode标点符号或符号类的字符。

例子

newDocuments= erasePunctuation (文档删除标点符号和符号文档.如果删除标点符号和符号字符后单词为空,则该函数将其删除。对于标记化的文档输入,该函数从带有类型的标记中删除标点符号“标点符号”而且“其他”.例如,该函数不会删除url和电子邮件地址中的标点符号字符。

例子

newDocuments= erasePunctuation (文档“TokenTypes”,类型仅从指定的标记类型中删除标点符号和符号。

例子

全部折叠

把正文中的标点符号擦掉str

str =“是1和/或2。”;newStr = eraspunctuation (str)
newStr = "它的一个和或两个"

的位置插入空格“/”符号是,先用的取代函数。

newStr = replace(str,“/””“
newStr = "它是一个或两个。"
newStr = eraspunctuation (newStr)
newStr = "它的一个或两个"

从文档数组中删除标点符号。

documents = tokenizedDocument([...“一个短句子的例子。”“另一个例子…URL: //www.ru-cchi.com”])
documents = 2x1 tokenizedDocument: 7个token:一个短句的例子。10个代币:另一个例子……URL: //www.ru-cchi.com
newDocuments = eraspunctuation(文档)
newDocuments = 2x1 tokenizedDocument: 6 token:一个短句的例子6 token:另一个URL为//www.ru-cchi.com的例子

这里,函数不会从URL中删除标点符号。

输入参数

全部折叠

输入文本,指定为字符串数组、字符向量或字符向量的单元格数组。

例子:["一个短句子的例子。"“第二个简短的句子。”]

数据类型:字符串|字符|细胞

输入文档,指定为tokenizedDocument数组中。

用于擦除标点符号的令牌类型,指定为字符向量、字符串数组或包含一个或多个令牌类型(包括自定义令牌类型)的字符向量单元格数组。

tokenizedDocument而且addTypeDetails函数自动检测以下令牌类型:

  • -只包含字母的字符串

  • 数字-仅为数字字符串

  • 标点符号-只包含标点符号和符号字符的字符串

  • 电子邮件地址-检测到的电子邮件地址

  • 网站地址-检测到的网址

  • 标签-检测到的标签(以“#”字符后跟字母)

  • 一提到他-检测到提及(以“@”字符)

  • 表情符号-检测到的表情

  • emoji-检测表情符号

  • 其他-不属于前面的类型,也不是自定义类型

要在标记化时指定自己的自定义标记类型,请使用“CustomTokens”“RegularExpressions”选项tokenizedDocument.如果未为自定义令牌指定类型,则软件将相应的令牌类型设置为“自定义”

数据类型:字符串|字符|细胞

输出参数

全部折叠

输出文本,作为字符串数组、字符向量或字符向量的单元格数组返回。str而且newStr具有相同的数据类型。

输出文档,返回为tokenizedDocument数组中。

更多关于

全部折叠

Unicode字符类别

每个Unicode字符被分配一个类别。下表总结了Unicode标点符号和符号类别,并提供了每个类别的示例字符:

类别 类别代码 字符数 例子字符
标点符号、连接器 (电脑) 10 _
标点符号,短跑 (Pd) 24 -
标点符号, (体育) 73
标点符号,最后引用 (Pf) 10
标点符号,开头引用 (π) 12
标点符号,其他 (Po) 566
标点符号、开放 (Ps) 75
符号、货币 (Sc) 54
象征,修饰符 (Sk) 121
符号、数学 (Sm) 948 +
符号,其他 (所以) 5855 ¦

有关更多信息,请参见[1]

提示

  • 对于字符串输入,erasePunctuation删除url和HTML标记中的标点符号。这种行为可以阻止函数eraseTagseraseURLs,decodeHTMLEntities不像预期那样工作。如果要使用这些函数对文本进行预处理,请在使用之前使用这些函数erasePunctuation

参考文献

版本历史

在R2017b中引入

全部展开

Baidu
map