rankfeatures

按类可分离性标准对关键特征进行排序

在页面中全部折叠

语法

IDX = rankfeatures (X,集团)

IDX = rankfeatures (X、组名称=值)

[IDX Z] = rankfeatures (X,集团___）

描述

例子

IDX= rankfeatures (X,集团）对功能进行排名X使用独立的评价标准进行二元分类。X是一个矩阵，其中每一列都是观察到的向量，行数对应原始特征数。集团包含类标签。IDX的行索引列表吗X具有最显著的特征。

例子

IDX= rankfeatures (X,集团,名称=值）使用由一个或多个名称-值参数指定的附加选项。

例子

(IDX,Z) = rankfeatures (X,集团,___）也返回用于每个特征的标准的绝对值列表。

例子

全部折叠

找到一组减少的基因来区分乳腺癌细胞

打开生活的脚本

在t矩阵NCI60数据集中找到一组足够区分乳腺癌细胞与所有其他类型癌症的减少基因。

加载示例数据。

负载NCI60tmatrix

获取乳腺癌细胞的逻辑索引向量。

BC =组== 8;

选择功能。

I = rankfeatures (X,公元前,NumberOfIndices = 12);

用线性判别分类器测试特征。

C =分类(X(我,:),X(我:),双(BC));公元前cp = classperf (C);cp.CorrectRate

ans = 1

使用互相关加权来进一步减少所需的基因数量。

我= rankfeatures (X,公元前“CCWeighting”, 0.7,“NumberOfIndices”8);C =分类(X(我,:),X(我:),双(BC));公元前cp = classperf (C);cp.CorrectRate

ans = 1

找到两组信号的判别峰

打开生活的脚本

找到由两个不同源调制的两组高斯脉冲信号的鉴别峰。

加载数据。

负载GaussianPulses

指定区域信息大于特征的z值作为函数句柄。将输出指标的数量设置为5。

f = rankfeatures(y'，grp,NWeighting=@(x) x/10+5,NumberOfIndices=5);情节(t y (grp = = 1:)“b”、t、y (grp = = 2,:)‘g’t (f), 1.35,“虚拟现实”);

图中包含一个坐标轴对象。坐标轴对象包含45个line类型的对象。

输入参数

全部折叠

`X`- - - - - -样本数据
数字矩阵

样本数据，指定为数字矩阵。每一列是一个观察到的向量，每一行是一个特征。

数据类型:双

`集团`- - - - - -类标签
数值向量|字符串向量|字符向量的单元格数组

类标签，指定为数字向量、字符串向量或字符向量的单元格数组。元素个数(集团)是否与列数在X。集团必须只有两个唯一值。如果包含任何值南值，函数忽略对应的观察向量X。

数据类型:双|字符串|细胞

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字是参数名和价值对应的值。名值实参必须出现在其他实参之后，但对的顺序并不重要。

例子:(idx x) = rankfeatures (x,团体,则=“entrophy”,NWeighting = 0.2)指定以相对熵作为评价特征显著性和区域信息值0.2的标准，以超过潜在特征的z值。

在R2021a之前，用逗号分隔每个名称和值，并括起来的名字在报价。

例子:[idx x] = rankfeatures (x,团体,“标准”,“entrophy”、“NWeighting”,0.2)

`标准`- - - - - -评价特征重要性的标准
`“tt”`(默认)|“entrophy”|`“bhattacharyya”`|`“中华民国”`|`“wilcoxon”`

用于评估区分两个标记组的每个特征的显著性的标准，指定为以下之一:

“tt”-绝对值双样本t检验，合并方差估计。
“熵”-相对熵，也称为Kullback-Leibler距离或散度。
“bhattacharyya”-可达到的最小分类误差或切尔诺夫界。
“中华民国”-经验接受者工作特征(ROC)曲线与随机分类器斜率之间的面积。
“wilcoxon”-双样本未配对Wilcoxon检验的标准化u统计量的绝对值，也称为Mann-Whitney检验。

请注意

“tt”,“熵”,“bhattacharyya”假设正态分布类，而“中华民国”和“wilcoxon”非参数测试。所有的检验都是特征独立的。

数据类型:字符|字符串

`CCWeighting`- - - - - -相关性信息要大于特征的z值
`0`(默认)|数字之间的标量`0`和`1`

相关信息超过潜在特征的z值，指定为之间的数值标量0和1。

这个函数使用 $Z \times (1 - α \times ρ ）$ 要计算权重，在哪里ρ是候选特征与之前所有选定特征之间的互相关系数绝对值的平均值。α是CCWeighting设置权重因子的值。

默认情况下,α是0，函数不会对潜在的特征进行加权。的大值ρ(接近1)超过显著性统计量，这意味着与已经选择的特征高度相关的特征不太可能被包含在输出列表中。

数据类型:双

`NWeighting`- - - - - -区域信息要大于特征的z值
`0`(默认)|负的标量|函数处理

区域信息大于潜在特征的z值，指定为非负标量或函数句柄。

这个函数使用 $Z \times (1 - e^{- {(\frac{D}{β} ）}^{2}} ）$ 要计算权重，在哪里D是候选特征和先前选定特征之间的距离(in行)。β是NWeighting设置权重因子的值。β必须大于或等于0。

默认情况下,β是0，函数不会对潜在的特征进行加权。的小值D(接近0)超过了仅接近特征的显著性统计。这意味着接近已被选中特征的特征不太可能被包含在输出列表中。这个选项对于从具有时间相关性的时间序列中提取特征非常有用。

β也可以是功能的特征位置，指定使用@或者匿名函数。在这两种情况下rankfeatures将特征的行位置传递给指定的函数，并期望返回一个大于或等于的值0。

请注意

您可以使用CCWeighting和NWeighting在一起。

数据类型:双|function_handle

`NumberOfIndices`- - - - - -输出指标数量
积极的标量

中的产出指标数量IDX，指定为正标量。时，默认情况下，索引的数量与特征的数量相同α和β是0。否则，将索引数设置为20.。

数据类型:双

`CrossNorm`- - - - - -跨观察的独立归一化方法
`“没有”`(默认)|`“meanvar”`|`“softmax”`|`“极大极小”`

对每个特征的观察结果进行独立归一化的方法，指定为以下之一:

“没有”(默认)-没有规范化。
“meanvar”- - - - - - $X_{n e w} = \frac{X - μ}{σ}$
“softmax”- - - - - - $X_{n e w} = \frac{1}{1 + e^{(\frac{μ - X}{σ} ）}}$
“极大极小”- - - - - - $X_{n e w} = \frac{X - X_{最小值}}{X_{马克斯} - X_{最小值}}$

在这些方程,μ=是指(X）,σ=性病(X）,X_最小值= min (X),X_马克斯= max (X)。

交叉归一化确保了不同特征之间的可比性，尽管这并不总是必要的，因为所选的标准可能已经考虑到了这一点。

数据类型:字符|字符串

输出参数

全部折叠

`IDX`-指标列表
数值向量

X中特征最显著的行索引列表，作为数字向量返回。

`Z`-特征判据绝对值表
数值向量

的绝对值列表标准用于特征，作为数字向量返回。

参考文献

[1] Theodoridis, Sergios和Konstantinos Koutroumbas。模式识别。圣地亚哥:文献出版社，1999:341-342。

[2]刘、欢、元田浩。知识发现和数据挖掘的特征选择。Kluwer国际工程与计算机科学系列454。波士顿:Kluwer学术出版社，1998年。

[3] Ross, Douglas T.， Uwe Scherf, Michael B. Eisen, Charles M. Perou, Christian Rees, Paul Spellman, Vishwanath Iyer等人，“人类癌细胞系基因表达模式的系统变异。”自然遗传学24日,没有。3(2000年3月):227-35。

版本历史

之前介绍过的R2006a

另请参阅

classperf|crossvalind|randfeatures|分类|sequentialfs

rankfeatures

语法

描述

例子

找到一组减少的基因来区分乳腺癌细胞

找到两组信号的判别峰

输入参数

X- - - - - -样本数据数字矩阵

集团- - - - - -类标签数值向量|字符串向量|字符向量的单元格数组

名称-值参数

标准- - - - - -评价特征重要性的标准“tt”(默认)|“entrophy”|“bhattacharyya”|“中华民国”|“wilcoxon”

CCWeighting- - - - - -相关性信息要大于特征的z值0(默认)|数字之间的标量0和1

NWeighting- - - - - -区域信息要大于特征的z值0(默认)|负的标量|函数处理

NumberOfIndices- - - - - -输出指标数量积极的标量

CrossNorm- - - - - -跨观察的独立归一化方法“没有”(默认)|“meanvar”|“softmax”|“极大极小”

输出参数

IDX-指标列表数值向量

Z-特征判据绝对值表数值向量

参考文献

版本历史

另请参阅

`X`- - - - - -样本数据
数字矩阵

`集团`- - - - - -类标签
数值向量|字符串向量|字符向量的单元格数组

`标准`- - - - - -评价特征重要性的标准
`“tt”`(默认)|“entrophy”|`“bhattacharyya”`|`“中华民国”`|`“wilcoxon”`

`CCWeighting`- - - - - -相关性信息要大于特征的z值
`0`(默认)|数字之间的标量`0`和`1`

`NWeighting`- - - - - -区域信息要大于特征的z值
`0`(默认)|负的标量|函数处理

`NumberOfIndices`- - - - - -输出指标数量
积极的标量

`CrossNorm`- - - - - -跨观察的独立归一化方法
`“没有”`(默认)|`“meanvar”`|`“softmax”`|`“极大极小”`

`IDX`-指标列表
数值向量

`Z`-特征判据绝对值表
数值向量