主要内容

邻域成分分析(NCA)特征选择

邻域分量分析(NCA)是一种非参数特征选择方法,其目标是使回归和分类算法的预测精度最大化。统计和机器学习工具箱™功能fscnca而且fsrnca使用正则化进行NCA特征选择,以学习特征权重,以最小化目标函数,该函数度量训练数据上的平均遗漏分类或回归损失。

分类的NCA特征选择

考虑一个多类分类问题,训练集包含n观察:

年代 x y 1 2 ... n

在哪里 x p 是特征向量, y 1 2 ... c 是类标签,和c是类的数量。目的是学习一个分类器 f p 1 2 ... c 它接受一个特征向量并做出预测 f x 对于真正的标签 y x

考虑一个随机分类器:

  • 随机选一个点, 裁判 x ,从 年代 作为“参考点” x

  • 标签 x 使用参考点的标签 裁判 x

该方案类似于1-NN分类器,其中参考点被选择为新点的最近邻居 x .在NCA中,参考点是随机选择的,所有的点都在 年代 有一定概率被选为参考点。的概率 P 裁判 x x j | 年代 这一点 x j 选择从 年代 作为参考点 x 如果高 x j 更接近于 x 用距离函数来测量 d w ,在那里

d w x x j r 1 p w r 2 | x r x j r |

而且 w r 是特征权重。假设

P 裁判 x x j | 年代 k d w x x j

在哪里 k 是一个假设大值的核函数或相似函数吗 d w x x j 很小。假设这是

k z 经验值 z σ

书中建议的那样[1].参考点 x 选择从 年代 的和 P 裁判 x x j | 年代 对所有j一定等于1。因此,写作是可能的

P 裁判 x x j | 年代 k d w x x j j 1 n k d w x x j

现在考虑这个随机分类器的省略一个应用程序,即预测的标签 x 使用中的数据 年代 ,训练集 年代 不包括的 x y .这个点的概率 x j 被选为参考点 x

p j P 裁判 x x j | 年代 k d w x x j j 1 j n k d w x x j

正确分类的平均遗漏一个概率就是概率 p 随机分类器正确地对观察进行了分类使用 年代

p j 1 j n P 裁判 x x j | 年代 y y j j 1 j n p j y j

在哪里

y j y y j 1 如果 y y j 0 否则

使用随机分类器进行正确分类的平均留一概率可以写成

F w 1 n 1 n p

的右边 F w 取决于权向量 w .邻域分量分析的目标是最大化 F w 关于 w fscnca采用中介绍的正则化目标函数[1]

F w 1 n 1 n p λ r 1 p w r 2 1 n 1 n j 1 j n p j y j λ r 1 p w r 2 F w 1 n 1 n F w

在哪里 λ 是正则化参数。正则化项驱动了许多权重 w 为0。

选择内核参数后 σ p j 作为1,求权向量 w 可以表示为以下最小化问题,对给定 λ

w argmin w f w argmin w 1 n 1 n f w

在哪里fw) = -Fw而且fw) = -Fw

请注意,

1 n 1 n j 1 j n p j 1

最小值的参数不会改变如果你给目标函数加一个常数。因此,可以通过添加常数1来重写目标函数。

w argmin w 1 + f w argmin w 1 n 1 n j 1 j n p j 1 n 1 n j 1 j n p j y j + λ r 1 p w r 2 argmin w 1 n 1 n j 1 j n p j 1 y j + λ r 1 p w r 2 argmin w 1 n 1 n j 1 j n p j l y y j + λ r 1 p w r 2

其中损失函数定义为

l y y j 1 如果 y y j 0 否则

最小值的参数是使分类误差最小的权重向量。方法可以指定自定义丢失函数LossFunction调用中的名值对参数fscnca

回归的NCA特征选择

fsrnca函数进行修正回归的NCA特征选择。鉴于n观察

年代 x y 1 2 ... n

与分类问题的唯一区别是响应值 y 是连续的。在这种情况下,目的是预测反应 y 给定训练集 年代

考虑一个随机回归模型:

  • 随机选取一个点( 裁判 x ) 年代 作为“参考点” x

  • 将响应值设置为 x 等于参考点的响应值 裁判 x

再一次的概率 P 裁判 x x j | 年代 这一点 x j 选择从 年代 作为参考点 x

P 裁判 x x j | 年代 k d w x x j j 1 n k d w x x j

现在考虑这个随机回归模型的一个省略的应用,即预测的响应 x 使用中的数据 年代 ,训练集 年代 不包括的 x y .这个点的概率 x j 被选为参考点 x

p j P 裁判 x x j | 年代 k d w x x j j 1 j n k d w x x j

y 是随机回归模型预测的响应值和 y 真正的回应 x .,让 l 2 是一个损失函数,用来衡量之间的分歧 y 而且 y .的平均值 l y y

l E l y y | 年代 j 1 j n p j l y y j

在加入正则化项后,最小化的目标函数为:

f w 1 n 1 n l + λ r 1 p w r 2

默认损失函数 l y y j 的NCA为平均绝对偏差,但可以指定其他损失函数,包括自定义损失函数LossFunction调用中的名值对参数fsrnca

标准化的影响

正则化项使无关预测因子的权重为零。在NCA分类或回归的目标函数中,只有一个正则化参数 λ 所有的重量。这一事实要求权重的大小彼此之间具有可比性。当特征向量 x 年代 在不同的尺度上,这可能会导致权重在不同的尺度上,没有意义。为了避免这种情况,在应用NCA之前,可以将预测器标准化,使其均值和单位标准差为零。方法可以对预测器进行标准化“标准化”,真的调用中的名值对参数fscncafsrnca

选择正则化参数值

通常需要通过在独立测试集上计算随机NCA分类器或回归模型的准确性来选择正则化参数的值。如果使用交叉验证而不是单个测试集,请选择 λ 值,使交叉验证折叠的平均损失最小化。有关示例,请参见调整正则化参数,利用NCA检测特征进行分类而且调整NCA的正则化参数用于回归

参考文献

[1]杨伟,王坤,左伟。高维数据的邻域分量特征选择。电脑杂志》上。2012年1月,第七卷第一期。

另请参阅

|||

相关的话题

Baidu
map