正则化

用正则化防止过拟合

正则化技术用于防止预测模型的统计过拟合。正则化算法通常通过对复杂性施加惩罚(如将模型的系数添加到最小化中)或包含粗糙度惩罚来工作。正则化算法通过在模型中引入额外的信息,使模型更加精简和精确,从而处理多重共线性和冗余预测。

流行的正则化技术包括脊回归(也称为Tikhonov正则化),套索和弹性网算法,收缩质心方法,以及迹图和交叉验证均方误差。您还可以应用赤池信息标准(AIC)作为拟合优度度量。

每种正则化技术都为特定的用例提供了优势。

  • 套索使用L1范数,并倾向于迫使个别系数值完全趋近于零。因此,lasso作为一种特征选择算法非常有效。它可以快速识别出少量的关键变量。
  • 岭回归对系数使用L2范数(将误差平方和最小化)。岭回归倾向于将系数收缩扩散到更多的系数上。如果您认为您的模型应该包含大量的系数,那么岭回归可能是一个很好的技术。
  • 弹性网可以弥补拉索无法识别额外的预测因素。

正则化与特征选择它迫使模型使用更少的预测因子。正则化方法有一些明显的优点。

  • 正则化技术能够操作比大多数特征选择方法(单变量特征选择除外)更大的数据集。套索和岭回归可以应用于包含数千甚至数万个变量的数据集。
  • 正则化算法通常生成比特征选择更精确的预测模型。正则化作用于连续空间,而特征选择作用于离散空间。因此,正则化通常能够微调模型并产生更准确的估计。

然而,特征选择方法也有优点:

  • 功能选择在某种程度上更直观,也更容易向第三方解释。当你必须在分享你的结果时描述你的方法时,这是很有价值的。
  • MATLAB®而且统计和机器学习工具箱™支持所有流行的正则化技术,并可用于线性回归、逻辑回归、支持向量机和线性判别分析。如果您正在使用其他模型类型,如增强决策树,您需要应用特性选择。

要点

  • 正则化(与特征选择一起)用于防止预测模型中的统计过拟合。
  • 由于正则化操作在连续空间上,它可以优于离散特征选择的机器学习问题,使自己适合各种线性建模。

示例场景

假设你正在进行一项癌症研究。你有500个不同癌症患者的基因序列,你试图确定15000个不同基因中哪一个对疾病的发展有重大影响。你可以应用一种特征排序方法,比如最小冗余度最大相关性而且附近的成分分析,或者是单变量,如果你关心的是运行时间;对于这么多不同的变量,只有顺序特征选择是完全不切实际的。或者,您也可以探索具有正则化的模型。你不能使用岭回归,因为它不会迫使系数足够快地完全归零。与此同时,你不能使用套索,因为你可能需要识别500多个不同的基因。弹性网是一个可能的解决方案。

参见:特征选择机器学习监督式学习线性模型AutoML

免费白皮书

机器学习挑战:选择最佳分类模型和避免过拟合

了解最常见的分类模型的优点,学习如何纠正和防止过拟合,并在MATLAB中看到有用的函数。

读白皮书
Baidu
map