特征选择

减少特征以提高模型性能

特征选择是一种降维技术,它选择在一组数据建模中提供最佳预测能力的特征(预测变量)的子集。

功能选择可用于:

  • 防止过拟合:避免使用过多的特征建模,这些特征更容易受到死记硬背的特定训练示例的影响
  • 减小模型大小:使用高维数据提高计算性能,或为内存可能有限的嵌入式部署准备模型。
  • 提高可解释性:使用更少的特性,这可能有助于识别那些影响模型行为的特性

有几种常用的特性选择方法。

迭代地更改特性集以优化性能或损失

逐步回归依次增加或删除特征,直到预测没有改善。它与线性回归或广义线性回归算法一起使用。同样,sequ基本特征选择建立一个特性集,直到精确度(或自定义性能度量)停止提高。

基于内在特征对特征进行排序

这些方法估计了特征的排名,这反过来又可以用来选择排名靠前的几个特征。最小冗余,最大相关性(MRMR)寻找特征,使特征和响应变量之间的互信息最大化,特征本身之间的互信息最小化。相关方法根据拉普拉斯分数对特征进行排名,或使用统计检验是否单个特征独立于响应来确定特征的重要性。

邻域成分分析(NCA)及其救济

这些方法通过最大化基于成对距离的预测精度来确定特征权重,并惩罚导致错误分类结果的预测器。

在模型的同时了解特性的重要性

一些有监督的机器学习算法在训练过程中估计特征的重要性。在训练完成后,这些估计可以用来对特征进行排名。具有内置特征选择的模型包括线性支持向量机、增强决策树及其集合(随机森林)和广义线性模型。同样,在套索正则化收缩估计器在训练过程中将冗余特征的权重(系数)降为零。

MATLAB®支持以下特性选择方法:

算法 培训 类型的模型 精度 警告
NCA 温和的 更适合基于距离的模型 需要手动调优正则化lambda
MRMR 任何 只对分类
ReliefF 温和的 更适合基于距离的模型 媒介 无法区分相关的预测因子
顺序 任何 没有对所有功能进行排名
方差齐性检验 任何 媒介 回归。无法区分相关的预测因子。
卡方 任何 媒介 的分类。无法区分相关的预测因子。

作为特征选择的一种替代方法,特征转换技术将现有特征转换为新特征(预测变量),去掉描述性较差的特征。特征转换方法包括:

  • 主成分分析(PCA),用于通过在唯一正交基上的投影来总结较少维度的数据
  • 因子分析,用于建立数据相关性的解释性模型
  • 非负矩阵分解,当模型项必须表示非负值时使用,例如物理量

有关用MATLAB进行特征选择的更多信息,包括机器学习、回归和转换,请参见统计和机器学习工具箱™

要点

  • 自动功能选择是完整的一部分AutoML通过几个简单步骤交付优化模型的工作流。
  • 特征选择是一种提高模型性能(特别是高维数据)、提高可解释性和减小尺寸的先进技术。
  • 首先考虑一个具有“内置”特性选择的模型。除此之外,MRMR在分类上非常有效。

例子

特征选择可以从应用小波散射自动生成的数百个特征中选择出一个合理的子集。下图是应用MATLAB函数得到的前50个特征的排名fscmrmr从人体活动传感器数据中自动生成小波特征。

预测排名

参见:统计和机器学习工具箱机器学习工程特性正则化特征提取生物医学信号处理AutoML

Baidu
map