主要内容

rankfeatures

按类可分离性标准对关键特征进行排序

描述

例子

IDX= rankfeatures (X,集团对功能进行排名X使用独立的评价标准进行二元分类。X是一个矩阵,其中每一列都是观察到的向量,行数对应原始特征数。集团包含类标签。IDX的行索引列表吗X具有最显著的特征。

例子

IDX= rankfeatures (X,集团,名称=值使用由一个或多个名称-值参数指定的附加选项。

例子

(IDX,Z) = rankfeatures (X,集团,___也返回用于每个特征的标准的绝对值列表。

例子

全部折叠

在t矩阵NCI60数据集中找到一组足够区分乳腺癌细胞与所有其他类型癌症的减少基因。

加载示例数据。

负载NCI60tmatrix

获取乳腺癌细胞的逻辑索引向量。

BC =组== 8;

选择功能。

I = rankfeatures (X,公元前,NumberOfIndices = 12);

用线性判别分类器测试特征。

C =分类(X(我,:),X(我:),双(BC));公元前cp = classperf (C);cp.CorrectRate
ans = 1

使用互相关加权来进一步减少所需的基因数量。

我= rankfeatures (X,公元前“CCWeighting”, 0.7,“NumberOfIndices”8);C =分类(X(我,:),X(我:),双(BC));公元前cp = classperf (C);cp.CorrectRate
ans = 1

找到由两个不同源调制的两组高斯脉冲信号的鉴别峰。

加载数据。

负载GaussianPulses

指定区域信息大于特征的z值作为函数句柄。将输出指标的数量设置为5。

f = rankfeatures(y',grp,NWeighting=@(x) x/10+5,NumberOfIndices=5);情节(t y (grp = = 1:)“b”、t、y (grp = = 2,:)‘g’t (f), 1.35,“虚拟现实”);

图中包含一个坐标轴对象。坐标轴对象包含45个line类型的对象。

输入参数

全部折叠

样本数据,指定为数字矩阵。每一列是一个观察到的向量,每一行是一个特征。

数据类型:

类标签,指定为数字向量、字符串向量或字符向量的单元格数组。元素个数(集团)是否与列数在X集团必须只有两个唯一值。如果包含任何值值,函数忽略对应的观察向量X

数据类型:|字符串|细胞

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字是参数名和价值对应的值。名值实参必须出现在其他实参之后,但对的顺序并不重要。

例子:(idx x) = rankfeatures (x,团体,则=“entrophy”,NWeighting = 0.2)指定以相对熵作为评价特征显著性和区域信息值0.2的标准,以超过潜在特征的z值。

在R2021a之前,用逗号分隔每个名称和值,并括起来的名字在报价。

例子:[idx x] = rankfeatures (x,团体,“标准”,“entrophy”、“NWeighting”,0.2)

用于评估区分两个标记组的每个特征的显著性的标准,指定为以下之一:

  • “tt”-绝对值双样本t检验,合并方差估计。

  • “熵”-相对熵,也称为Kullback-Leibler距离或散度。

  • “bhattacharyya”-可达到的最小分类误差或切尔诺夫界。

  • “中华民国”-经验接受者工作特征(ROC)曲线与随机分类器斜率之间的面积。

  • “wilcoxon”-双样本未配对Wilcoxon检验的标准化u统计量的绝对值,也称为Mann-Whitney检验。

请注意

“tt”,“熵”,“bhattacharyya”假设正态分布类,而“中华民国”“wilcoxon”非参数测试。所有的检验都是特征独立的。

数据类型:字符|字符串

相关信息超过潜在特征的z值,指定为之间的数值标量01

这个函数使用 Z × ( 1 α × ρ 要计算权重,在哪里ρ是候选特征与之前所有选定特征之间的互相关系数绝对值的平均值。αCCWeighting设置权重因子的值。

默认情况下,α0,函数不会对潜在的特征进行加权。的大值ρ(接近1)超过显著性统计量,这意味着与已经选择的特征高度相关的特征不太可能被包含在输出列表中。

数据类型:

区域信息大于潜在特征的z值,指定为非负标量或函数句柄。

这个函数使用 Z × ( 1 e ( D β 2 要计算权重,在哪里D是候选特征和先前选定特征之间的距离(in行)。βNWeighting设置权重因子的值。β必须大于或等于0

默认情况下,β0,函数不会对潜在的特征进行加权。的小值D(接近0)超过了仅接近特征的显著性统计。这意味着接近已被选中特征的特征不太可能被包含在输出列表中。这个选项对于从具有时间相关性的时间序列中提取特征非常有用。

β也可以是功能的特征位置,指定使用@或者匿名函数。在这两种情况下rankfeatures将特征的行位置传递给指定的函数,并期望返回一个大于或等于的值0

请注意

您可以使用CCWeightingNWeighting在一起。

数据类型:|function_handle

中的产出指标数量IDX,指定为正标量。时,默认情况下,索引的数量与特征的数量相同αβ0。否则,将索引数设置为20.

数据类型:

对每个特征的观察结果进行独立归一化的方法,指定为以下之一:

  • “没有”(默认)-没有规范化。

  • “meanvar”- - - - - - X n e w = X μ σ

  • “softmax”- - - - - - X n e w = 1 1 + e ( μ X σ

  • “极大极小”- - - - - - X n e w = X X 最小值 X 马克斯 X 最小值

在这些方程,μ=是指(X,σ=性病(X,X最小值= min (X),X马克斯= max (X)

交叉归一化确保了不同特征之间的可比性,尽管这并不总是必要的,因为所选的标准可能已经考虑到了这一点。

数据类型:字符|字符串

输出参数

全部折叠

X中特征最显著的行索引列表,作为数字向量返回。

的绝对值列表标准用于特征,作为数字向量返回。

参考文献

[1] Theodoridis, Sergios和Konstantinos Koutroumbas。模式识别。圣地亚哥:文献出版社,1999:341-342。

[2]刘、欢、元田浩。知识发现和数据挖掘的特征选择。Kluwer国际工程与计算机科学系列454。波士顿:Kluwer学术出版社,1998年。

[3] Ross, Douglas T., Uwe Scherf, Michael B. Eisen, Charles M. Perou, Christian Rees, Paul Spellman, Vishwanath Iyer等人,“人类癌细胞系基因表达模式的系统变异。”自然遗传学24日,没有。3(2000年3月):227-35。

版本历史

之前介绍过的R2006a

Baidu
map