主要内容

fitlsa

符合LSA模型

描述

潜在语义分析(LSA)模型发现文档及其包含的单词之间的关系。LSA模型是一种降维工具,用于对高维单词计数运行低维统计模型。如果模型是用n-g - bag模型拟合的,那么软件将n-g视为单独的单词。

例子

mdl= fitlsa (numComponents适合LSA模型numComponents组件到单词包或n-grams包模型

例子

mdl= fitlsa (计数numComponents将LSA模型拟合到由字数矩阵表示的文档中计数

例子

mdl= fitlsa (___名称,值使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

将潜在语义分析模型应用于文档集合。

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,词之间用空格隔开。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

使用创建单词袋模型bagOfWords

袋= bagOfWords(文档)
计数:[154x3092 double]词汇:[“最公平的”“生物”“欲望”…NumWords: 3092 NumDocuments: 154

拟合一个包含20个组件的LSA模型。

numComponents = 20;numComponents mdl = fitlsa(袋)
mdl = lsammodel with properties: NumComponents: 20 ComponentWeights: [2.7866e+03 515.5889 443.6428 316.4191…]词汇:[“最公平的”“生物”“欲望”…]] FeatureStrengthExponent: 2

使用LSA模型将新文档转换到较低维空间。

newDocuments = tokenizedDocument ([“名字有什么意义?”玫瑰不论叫什么名字,闻起来都一样香。”“如果音乐是爱情的食粮,就继续演奏吧。”]);newDocuments dscores =变换(mdl)
dscores =2×200.1338 0.1623 0.1680 -0.0541 -0.2464 -0.0134 -0.2604 0.0205 -0.1127 0.0627 0.3311 -0.2327 0.1689 -0.2695 0.0228 0.1241 0.1198 0.2535 -0.0607 0.0305 0.2547 0.5576 -0.0095 0.5660 -0.0643 -0.1236 0.0082 -0.0522 0.0690 -0.0330 0.0385 0.0803 -0.0373 0.0384 -0.0005 0.1943 0.0207 0.0278 0.0001 -0.0469

加载示例数据。sonnetsCounts.mat包含一个与莎士比亚十四行诗预处理版本对应的字数矩阵。

负载sonnetsCounts.mat大小(数量)
ans =1×2154 3092

拟合20个组件的LSA模型。设置特征强度指数为4。

numComponents = 20;指数= 4;mdl = fitlsa (numComponents计数,...“FeatureStrengthExponent”指数)
mdl = lsammodel with properties: NumComponents: 20 ComponentWeights: [2.7866e+03 515.5889 443.6428 316.4191…][154x20 double] WordScores: [3092x20 double]词汇:["1" "2" "3" "4" "5"…] FeatureStrengthExponent: 4

输入参数

全部折叠

输入单词袋或n克袋模型,指定为bagOfWords对象或一个bagOfNgrams对象。如果是一个bagOfNgrams对象,则函数将每个n-gram视为单个单词。

组件数,指定为正整数。该值必须小于输入文档的数量和输入文档的词汇表大小。

例子:200

单词的频率计数,指定为一个非负整数矩阵。如果您指定“DocumentsIn”“行”,则值为计数(i, j)对应于的次数j这个单词出现在文档。否则,该值计数(i, j)对应于的次数这个单词出现在j文档。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。

在R2021a之前,名称和值之间用逗号隔开,并括起来的名字在报价。

例子:“FeatureStrengthExponent”4将特征强度指数设置为4。

文档在字数矩阵中的定位,指定为逗号分隔的对,由“DocumentsIn”和以下其中之一:

  • “行”-输入是一个字数矩阵,包含与文档对应的行。

  • “列”-输入是一个转置矩阵的字数与列对应的文档。

此选项仅适用于将输入文档指定为字数矩阵的情况。

请注意

如果确定字数矩阵的方向,使文档对应于列并指定“DocumentsIn”、“列”,那么优化执行时间可能会显著减少。

初始特征强度指数,指定为非负标量。的特性组件的强度documentScoreswordScores,变换功能。

例子:“FeatureStrengthExponent”4

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

输出参数

全部折叠

输出LSA模型,返回为lsaModel对象。

版本历史

介绍了R2017b

Baidu
map