主要内容

取代

替换文档中的子字符串

描述

例子

newDocuments=取代(文档替换所有出现的子字符串或模式文档

提示

使用取代函数通过指定子字符串或模式替换文档中单词的子字符串。要替换文档中的整个单词和n-grams,请使用replaceWords而且replaceNgrams函数分别。

例子

全部折叠

替换文档数组中的单词。

文件= tokenizedDocument ([“一个极端的例子“另一个极端的例子])
3个token:另一个极端的例子
newDocuments =取代(文档,“例子”“句子”
newDocuments = 2x1 tokenizedDocument: 3个token:一个极端句

替换单词的子字符串。

newDocuments =取代(文档,“前女友”“X -”
newDocuments = 2x1 tokenizedDocument: 3个token:一个X-treme X-ample

使用数字模式从文档中删除数字。

创建一个标记文档数组。

textData = [“文本分析工具箱提供超过50个功能来分析文本数据。”bm25Similarity函数度量文档的相似性。];文件= tokenizedDocument (textData);

用令牌替换连续数字的实例“< >”使用取代函数。方法指定数字模式digitsPattern函数。

帕特= digitsPattern;newDocuments =取代(文档、帕特“< >”
文本分析工具箱提供超过函数来分析文本数据。7个标记:bmSimilarity函数度量文档相似度。

注意,该函数替换令牌中的数字“bm25Similarity”

要替换完全由数字组成的令牌,请使用取代函数并指定一个还包括文本边界的模式。方法指定文本边界textBoundary函数。

pat = textBoundary + digitpattern + textBoundary;newDocuments =取代(文档、帕特“< >”
文本分析工具箱提供超过函数来分析文本数据。7个标记:bm25Similarity函数度量文档相似度。

在这种情况下,函数不替换令牌中的数字“bm25Similarity”

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

要替换的子字符串或模式,指定为以下之一:

  • 字符串数组

  • 特征向量

  • 字符向量的单元格数组

  • 模式数组

新子字符串,指定为字符串数组、字符向量或字符向量的单元格数组。

数据类型:字符串|字符|细胞

输出参数

全部折叠

输出文档,作为tokenizedDocument数组中。

版本历史

介绍了R2017b

Baidu
map