邻域分量分析(NCA)特征选择- MATLAB和Simulink - 卡塔尔世界杯8强比赛直播

邻域成分分析(NCA)特征选择

邻域分量分析(NCA)是一种非参数特征选择方法，其目标是使回归和分类算法的预测精度最大化。统计和机器学习工具箱™功能fscnca而且fsrnca使用正则化进行NCA特征选择，以学习特征权重，以最小化目标函数，该函数度量训练数据上的平均遗漏分类或回归损失。

分类的NCA特征选择

考虑一个多类分类问题，训练集包含n观察:

$\begin{array}{l} 年代＝｛（ x_{我} ， y_{我} ），我＝ 1 ， 2 ， .．. ， n ｝ \end{array} ，$

在哪里 $x_{我} \in ℝ^{p}$ 是特征向量， $y_{我} \in ｛ 1 ， 2 ， .．. ， c ｝$ 是类标签，和c是类的数量。目的是学习一个分类器 $f ： ℝ^{p} \to ｛ 1 ， 2 ， .．. ， c ｝$ 它接受一个特征向量并做出预测 $f （ x ）$ 对于真正的标签 $y$ 的 $x$ ．

考虑一个随机分类器:

随机选一个点， $裁判（ x ）$ ,从 $年代$ 作为“参考点” $x$
标签 $x$ 使用参考点的标签 $裁判（ x ）$ ．

该方案类似于1-NN分类器，其中参考点被选择为新点的最近邻居 $x$ ．在NCA中，参考点是随机选择的，所有的点都在 $年代$ 有一定概率被选为参考点。的概率 $P （裁判（ x ）＝ x_{j} | 年代）$ 这一点 $x_{j}$ 选择从 $年代$ 作为参考点 $x$ 如果高 $x_{j}$ 更接近于 $x$ 用距离函数来测量 $d_{w}$ ,在那里

$d_{w} （ x_{我} ， x_{j} ）＝ \sum_{r ＝ 1}^{p} w_{r}^{2} | x_{我 r} - x_{j r} | ，$

而且 $w_{r}$ 是特征权重。假设

$\begin{array}{l} P （裁判（ x ）＝ x_{j} | 年代） \propto k （ d_{w} （ x ， x_{j} ）） \end{array} ，$

在哪里 $k$ 是一个假设大值的核函数或相似函数吗 $d_{w} （ x ， x_{j} ）$ 很小。假设这是

$k （ z ）＝经验值（ - \frac{z}{σ} ），$

书中建议的那样[1]．参考点 $x$ 选择从 $年代$ 的和 $P （裁判（ x ）＝ x_{j} | 年代）$ 对所有j一定等于1。因此，写作是可能的

$\begin{array}{l} P （裁判（ x ）＝ x_{j} | 年代）＝ \frac{k （ d_{w} （ x ， x_{j} ））}{\sum_{j ＝ 1}^{n} k （ d_{w} （ x ， x_{j} ））} \end{array} ．$

现在考虑这个随机分类器的省略一个应用程序，即预测的标签 $x_{我}$ 使用中的数据 ${年代}^{- 我}$ ，训练集 $年代$ 不包括的 $（ x_{我} ， y_{我} ）$ ．这个点的概率 $x_{j}$ 被选为参考点 $x_{我}$ 是

$p_{我 j} ＝ P （裁判（ x_{我} ）＝ x_{j} | {年代}^{- 我} ）＝ \frac{k （ d_{w} （ x_{我} ， x_{j} ））}{\sum_{j ＝ 1 ， j \neq 我}^{n} k （ d_{w} （ x_{我} ， x_{j} ））} ．$

正确分类的平均遗漏一个概率就是概率 $p_{我}$ 随机分类器正确地对观察进行了分类我使用 ${年代}^{- 我}$ ．

$\begin{array}{l} p_{我} ＝ \sum_{j ＝ 1 ， j \neq 我}^{n} P （裁判（ x_{我} ）＝ x_{j} | {年代}^{- 我} ）我（ y_{我} ＝ y_{j} ） \end{array} ＝ \sum_{j ＝ 1 ， j \neq 我}^{n} p_{我 j} y_{我 j} ，$

在哪里

$y_{我 j} ＝我（ y_{我} ＝ y_{j} ）＝｛ \begin{matrix} 1 & 如果 y_{我} ＝ y_{j ，} \\ 0 & 否则． \end{matrix}$

使用随机分类器进行正确分类的平均留一概率可以写成

$F （ w ）＝ \frac{1}{n} \sum_{我＝ 1}^{n} p_{我} ．$

的右边 $F （ w ）$ 取决于权向量 $w$ ．邻域分量分析的目标是最大化 $F （ w ）$ 关于 $w$ ．fscnca采用中介绍的正则化目标函数[1]．

$\begin{array}{l} F （ w ） & ＝ \frac{1}{n} \sum_{我＝ 1}^{n} p_{我} - λ \sum_{r ＝ 1}^{p} w_{r}^{2} \\ ＝ \frac{1}{n} \sum_{我＝ 1}^{n} \underset{F_{我} （ w ）}{\underset{︸}{［ \sum_{j ＝ 1 ， j \neq 我}^{n} p_{我 j} y_{我 j} - λ \sum_{r ＝ 1}^{p} w_{r}^{2} ］}} \\ ＝ \frac{1}{n} \sum_{我＝ 1}^{n} F_{我} （ w ） \end{array} ，$

在哪里 $λ$ 是正则化参数。正则化项驱动了许多权重 $w$ 为0。

选择内核参数后 $σ$ 在 $p_{我 j}$ 作为1，求权向量 $w$ 可以表示为以下最小化问题，对给定 $λ$ ．

$\overset{＾}{w} ＝ \underset{w}{argmin} f （ w ）＝ \underset{w}{argmin} \frac{1}{n} \sum_{我＝ 1}^{n} f_{我} （ w ），$

在哪里f（w) = -F（w）而且f_我（w) = -F_我（w）．

请注意,

$\frac{1}{n} \sum_{我＝ 1}^{n} \sum_{j ＝ 1 ， j \neq 我}^{n} p_{我 j} ＝ 1 ，$

最小值的参数不会改变如果你给目标函数加一个常数。因此，可以通过添加常数1来重写目标函数。

$\begin{matrix} \overset{＾}{w} ＝ \underset{w}{argmin} ｛ 1 + f （ w ）｝ \\ ＝ \underset{w}{argmin} ｛ \frac{1}{n} \sum_{我＝ 1}^{n} \sum_{j ＝ 1 ， j \neq 我}^{n} p_{我 j} - \frac{1}{n} \sum_{我＝ 1}^{n} \sum_{j ＝ 1 ， j \neq 我}^{n} p_{我 j} y_{我 j} + λ \sum_{r ＝ 1}^{p} w_{r}^{2} ｝ \\ ＝ \underset{w}{argmin} ｛ \frac{1}{n} \sum_{我＝ 1}^{n} \sum_{j ＝ 1 ， j \neq 我}^{n} p_{我 j} （ 1 - y_{我 j} ） + λ \sum_{r ＝ 1}^{p} w_{r}^{2} ｝ \\ ＝ \underset{w}{argmin} ｛ \frac{1}{n} \sum_{我＝ 1}^{n} \sum_{j ＝ 1 ， j \neq 我}^{n} p_{我 j} l （ y_{我} ， y_{j} ） + λ \sum_{r ＝ 1}^{p} w_{r}^{2} ｝， \end{matrix}$

其中损失函数定义为

$l （ y_{我} ， y_{j} ）＝｛ \begin{matrix} 1 & 如果 y_{我} \neq y_{j ，} \\ 0 & 否则． \end{matrix}$

最小值的参数是使分类误差最小的权重向量。方法可以指定自定义丢失函数LossFunction调用中的名值对参数fscnca．

回归的NCA特征选择

的fsrnca函数进行修正回归的NCA特征选择。鉴于n观察

$\begin{array}{l} 年代＝｛（ x_{我} ， y_{我} ），我＝ 1 ， 2 ， .．. ， n ｝ \end{array} ，$

与分类问题的唯一区别是响应值 $y_{我} \in ℝ$ 是连续的。在这种情况下，目的是预测反应 $y$ 给定训练集 $年代$ ．

考虑一个随机回归模型:

随机选取一个点( $裁判（ x ）$ ) $年代$ 作为“参考点” $x$
将响应值设置为 $x$ 等于参考点的响应值 $裁判（ x ）$ ．

再一次的概率 $P （裁判（ x ）＝ x_{j} | 年代）$ 这一点 $x_{j}$ 选择从 $年代$ 作为参考点 $x$ 是

$\begin{array}{l} P （裁判（ x ）＝ x_{j} | 年代）＝ \frac{k （ d_{w} （ x ， x_{j} ））}{\sum_{j ＝ 1}^{n} k （ d_{w} （ x ， x_{j} ））} \end{array} ．$

现在考虑这个随机回归模型的一个省略的应用，即预测的响应 $x_{我}$ 使用中的数据 ${年代}^{- 我}$ ，训练集 $年代$ 不包括的 $（ x_{我} ， y_{我} ）$ ．这个点的概率 $x_{j}$ 被选为参考点 $x_{我}$ 是

让 ${\overset{＾}{y}}_{我}$ 是随机回归模型预测的响应值和 $y_{我}$ 真正的回应 $x_{我}$ ．,让 $l ： ℝ^{2} \to ℝ$ 是一个损失函数，用来衡量之间的分歧 ${\overset{＾}{y}}_{我}$ 而且 $y_{我}$ ．的平均值 $l （ y_{我} ， {\overset{＾}{y}}_{我} ）$ 是

$l_{我} ＝ E （ l （ y_{我} ， {\overset{＾}{y}}_{我} ） | {年代}^{- 我} ）＝ \sum_{j ＝ 1 ， j \neq 我}^{n} p_{我 j} l （ y_{我} ， y_{j} ）．$

在加入正则化项后，最小化的目标函数为:

$f （ w ）＝ \frac{1}{n} \sum_{我＝ 1}^{n} l_{我} + λ \sum_{r ＝ 1}^{p} w_{r}^{2} ．$

默认损失函数 $l （ y_{我} ， y_{j} ）$ 的NCA为平均绝对偏差，但可以指定其他损失函数，包括自定义损失函数LossFunction调用中的名值对参数fsrnca．

标准化的影响

正则化项使无关预测因子的权重为零。在NCA分类或回归的目标函数中，只有一个正则化参数 $λ$ 所有的重量。这一事实要求权重的大小彼此之间具有可比性。当特征向量 $x_{我}$ 在 $年代$ 在不同的尺度上，这可能会导致权重在不同的尺度上，没有意义。为了避免这种情况，在应用NCA之前，可以将预测器标准化，使其均值和单位标准差为零。方法可以对预测器进行标准化“标准化”,真的调用中的名值对参数fscnca或fsrnca．

选择正则化参数值

通常需要通过在独立测试集上计算随机NCA分类器或回归模型的准确性来选择正则化参数的值。如果使用交叉验证而不是单个测试集，请选择 $λ$ 值，使交叉验证折叠的平均损失最小化。有关示例,请参见调整正则化参数，利用NCA检测特征进行分类而且调整NCA的正则化参数用于回归．

参考文献

[1]杨伟，王坤，左伟。高维数据的邻域分量特征选择。电脑杂志》上。2012年1月，第七卷第一期。

另请参阅

fscnca|fsrnca|FeatureSelectionNCAClassification|FeatureSelectionNCARegression