fitlsa

符合LSA模型

在页面中全部折叠

语法

numComponents mdl = fitlsa(袋)

numComponents mdl = fitlsa(计数)

mdl = fitlsa (___、名称、值)

描述

潜在语义分析(LSA)模型发现文档及其包含的单词之间的关系。LSA模型是一种降维工具，用于对高维单词计数运行低维统计模型。如果模型是用n-g - bag模型拟合的，那么软件将n-g视为单独的单词。

例子

mdl= fitlsa (袋，numComponents）适合LSA模型numComponents组件到单词包或n-grams包模型袋．

例子

mdl= fitlsa (计数，numComponents）将LSA模型拟合到由字数矩阵表示的文档中计数．

例子

mdl= fitlsa (___，名称,值）使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

符合LSA模型

打开生活的脚本

将潜在语义分析模型应用于文档集合。

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗，词之间用空格隔开。从中提取文本sonnetsPreprocessed.txt，以换行符将文本拆分为文档，然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

使用创建单词袋模型bagOfWords．

袋= bagOfWords(文档)

计数:[154x3092 double]词汇:[“最公平的”“生物”“欲望”…NumWords: 3092 NumDocuments: 154

拟合一个包含20个组件的LSA模型。

numComponents = 20;numComponents mdl = fitlsa(袋)

mdl = lsammodel with properties: NumComponents: 20 ComponentWeights: [2.7866e+03 515.5889 443.6428 316.4191…]词汇:[“最公平的”“生物”“欲望”…]] FeatureStrengthExponent: 2

使用LSA模型将新文档转换到较低维空间。

newDocuments = tokenizedDocument ([“名字有什么意义?”玫瑰不论叫什么名字，闻起来都一样香。”“如果音乐是爱情的食粮，就继续演奏吧。”]);newDocuments dscores =变换(mdl)

dscores =2×200.1338 0.1623 0.1680 -0.0541 -0.2464 -0.0134 -0.2604 0.0205 -0.1127 0.0627 0.3311 -0.2327 0.1689 -0.2695 0.0228 0.1241 0.1198 0.2535 -0.0607 0.0305 0.2547 0.5576 -0.0095 0.5660 -0.0643 -0.1236 0.0082 -0.0522 0.0690 -0.0330 0.0385 0.0803 -0.0373 0.0384 -0.0005 0.1943 0.0207 0.0278 0.0001 -0.0469

拟合LSA模型与字数矩阵

打开生活的脚本

加载示例数据。sonnetsCounts.mat包含一个与莎士比亚十四行诗预处理版本对应的字数矩阵。

负载sonnetsCounts.mat大小(数量)

ans =1×2154 3092

拟合20个组件的LSA模型。设置特征强度指数为4。

numComponents = 20;指数= 4;mdl = fitlsa (numComponents计数,.．.“FeatureStrengthExponent”指数)

mdl = lsammodel with properties: NumComponents: 20 ComponentWeights: [2.7866e+03 515.5889 443.6428 316.4191…][154x20 double] WordScores: [3092x20 double]词汇:["1" "2" "3" "4" "5"…] FeatureStrengthExponent: 4

输入参数

全部折叠

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

输入单词袋或n克袋模型，指定为bagOfWords对象或一个bagOfNgrams对象。如果袋是一个bagOfNgrams对象，则函数将每个n-gram视为单个单词。

`numComponents`- - - - - -数量的组件
正整数

组件数，指定为正整数。该值必须小于输入文档的数量和输入文档的词汇表大小。

例子:200

`计数`- - - - - -单词的频率统计
非负整数的矩阵

单词的频率计数，指定为一个非负整数矩阵。如果您指定“DocumentsIn”是“行”，则值为计数(i, j)对应于的次数j这个单词出现在我文档。否则,该值计数(i, j)对应于的次数我这个单词出现在j文档。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后，但对的顺序并不重要。

在R2021a之前，名称和值之间用逗号隔开，并括起来的名字在报价。

例子:“FeatureStrengthExponent”4将特征强度指数设置为4。

`DocumentsIn`- - - - - -取向的文档
`“行”`(默认)|`“列”`

文档在字数矩阵中的定位，指定为逗号分隔的对，由“DocumentsIn”和以下其中之一:

“行”-输入是一个字数矩阵，包含与文档对应的行。
“列”-输入是一个转置矩阵的字数与列对应的文档。

此选项仅适用于将输入文档指定为字数矩阵的情况。

请注意

如果确定字数矩阵的方向，使文档对应于列并指定“DocumentsIn”、“列”，那么优化执行时间可能会显著减少。

`FeatureStrengthExponent`- - - - - -初始特征强度指数
2(默认)|负的标量

初始特征强度指数，指定为非负标量。的特性组件的强度documentScores，wordScores,变换功能。

例子:“FeatureStrengthExponent”4

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

输出参数

全部折叠

`mdl`-输出LSA模型
`lsaModel`对象

输出LSA模型，返回为lsaModel对象。

版本历史

介绍了R2017b

另请参阅

fitlsa

语法

描述

例子

符合LSA模型

拟合LSA模型与字数矩阵

输入参数

袋- - - - - -输入模型bagOfWords对象|bagOfNgrams对象

numComponents- - - - - -数量的组件正整数

计数- - - - - -单词的频率统计非负整数的矩阵

名称-值参数

DocumentsIn- - - - - -取向的文档“行”(默认)|“列”

FeatureStrengthExponent- - - - - -初始特征强度指数2(默认)|负的标量

输出参数

mdl-输出LSA模型lsaModel对象

版本历史

另请参阅

主题

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

`numComponents`- - - - - -数量的组件
正整数

`计数`- - - - - -单词的频率统计
非负整数的矩阵

`DocumentsIn`- - - - - -取向的文档
`“行”`(默认)|`“列”`

`FeatureStrengthExponent`- - - - - -初始特征强度指数
2(默认)|负的标量

`mdl`-输出LSA模型
`lsaModel`对象