erasePunctuation
删除文本和文档中的标点符号
语法
描述
删除标点符号和符号newDocuments
= erasePunctuation (文档
)文档
.如果删除标点符号和符号字符后单词为空,则该函数将其删除。对于标记化的文档输入,该函数从带有类型的标记中删除标点符号“标点符号”
而且“其他”
.例如,该函数不会删除url和电子邮件地址中的标点符号字符。
仅从指定的标记类型中删除标点符号和符号。newDocuments
= erasePunctuation (文档
“TokenTypes”,类型
)
例子
输入参数
输出参数
更多关于
提示
对于字符串输入,
erasePunctuation
删除url和HTML标记中的标点符号。这种行为可以阻止函数eraseTags
,eraseURLs
,decodeHTMLEntities
不像预期那样工作。如果要使用这些函数对文本进行预处理,请在使用之前使用这些函数erasePunctuation
.
参考文献
[1]Unicode字符类别.https://www.fileformat.info/info/unicode/category/index.htm