帮助中心帮助中心
组合多个单词袋或n个单词袋模型
newBag =加入(袋)
newBag =加入(袋、暗)
例子
newBag=加入(袋)组合数组中的元素袋通过合并频率计数。这个函数将第一个维度不等于1的元素组合在一起。
newBag=加入(袋)
newBag
袋
newBag=加入(袋,昏暗的)组合数组中的元素袋沿着维度昏暗的.
newBag=加入(袋,昏暗的)
昏暗的
全部折叠
从标记化的文档创建两个字袋模型数组。
str = [...一个短句的例子“第二句短句”];文件= tokenizedDocument (str);袋(1)= bagOfWords(文档(1));袋(2)= bagOfWords(文档(2))
袋=1×2对象1x2 bagOfWords数组的属性:计数词汇NumWords NumDocuments
使用组合单词袋模型加入.
加入
袋=加入(袋)
词汇:“an”“example”“a”“short”…NumWords: 7 NumDocuments: 2
如果文本数据包含在一个文件夹中的多个文件中,则可以导入文本数据并使用parfor.如果安装了并行计算工具箱™,则parfor循环是并行运行的,否则,它是串行运行的。使用加入将单词袋模型数组组合为一个模型。
parfor
从文件集合创建一个单词包模型。这些十四行诗的例子都有文件名exampleSonnetN.txt”,N是十四行诗的编号。获取文件及其位置的列表dir.
exampleSonnetN.txt
N
dir
fileLocation = fullfile (matlabroot,“例子”,“textanalytics”,“数据”,“exampleSonnet * . txt”);fileInfo = dir (fileLocation);
初始化一个空的词袋模型,然后遍历文件并创建一个词袋模型数组。
袋= bagOfWords;numFiles =元素个数(fileInfo);parfori = 1:文件f = fileInfo(i);文件名= fullfile (f.folder f.name);textData = extractFileText(文件名);文档= tokenizedDocument (textData);袋(我)= bagOfWords(文档);结束
使用“Processes”配置文件启动并行池(parpool)…连接到并行池(工人数量:4)。
计数:[4x276 double]词汇:["来自" "最公平的" "生物" "我们"…NumWords: 276 NumDocuments: 4
bagOfWords
bagOfNgrams
字袋或n克袋模型的数组,指定为bagOfWords数组或一个bagOfNgrams数组中。如果袋是一个bagOfNgrams数组,则要连接的每个元素必须具有相同的值NgramLengths财产。
NgramLengths
连接模型的尺寸,指定为正整数。如果昏暗的的值,则默认值为大小不等于1的第一个维度。
输出模型,返回为bagOfWords对象或一个bagOfNgrams对象。的类型newBag的类型是一样的吗袋.newBag具有与输入模型相同的数据类型,并且沿着被连接的维度的大小为1。
介绍了R2018a
bagOfWords|bagOfNgrams|addDocument|removeDocument|removeEmptyDocuments|topkwords|topkngrams|编码|tfidf|tokenizedDocument
addDocument
removeDocument
removeEmptyDocuments
topkwords
topkngrams
编码
tfidf
tokenizedDocument
您有了这个示例的修改版本。您想用您的编辑打开这个示例吗?
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。
选择一个网站,在可用的地方获得翻译的内容,并查看当地的活动和优惠。根据您的地理位置,我们建议您选择:.
您也可以从以下列表中选择网站:
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。
联系当地办事处