交叉验证- MATLAB和Simulink - 卡塔尔世界杯8强比赛直播

评估和改进模型的预测性能

交叉验证是一种模型评估技术，用于评估机器学习算法在未经过训练的新数据集上进行预测的性能。这是通过对已知数据集进行分区来实现的，使用一个子集来训练算法，并使用剩下的数据进行测试。

每一轮交叉验证都涉及到将原始数据集随机划分为训练集和一个测试组．然后用训练集来训练一个监督式学习算法和测试集对其性能进行了评价。这个过程重复几次，交叉验证的平均误差被用作性能指标。

当训练一个模型时，重要的是不要用太复杂或太简单的算法对它进行过拟合或过拟合。训练集和测试集的选择对于降低这种风险至关重要。然而，划分数据集以最大化测试结果的学习和有效性是困难的。这就是交叉验证发挥作用的地方。交叉验证提供了几种不同的拆分数据的技术，以便为模型找到最佳算法。

交叉验证也有助于选择性能最好的模型通过使用未用于训练的测试数据集计算误差。测试数据集有助于计算模型的准确性，以及如何对未来的数据进行泛化。

有许多技术可用于交叉验证。其中最常见的有:

k-fold:将数据随机划分为k个大小大致相等的子集(或折叠)。一个子集用于验证使用其余子集训练的模型。这个过程重复k次，以便每个子集只用于验证一次。所有k个分区的平均误差报告为ε。这是交叉验证最流行的技术之一，但可能需要很长时间来执行，因为模型需要反复训练。下图说明了这个过程。

坚持:将数据按规定的比例随机划分为两个子集，用于训练和验证。这种方法只执行一次训练和测试，这在大型数据集上减少了执行时间，但在小型数据集上要谨慎解释报告的错误。
Leaveout:使用k-fold方法对数据进行分区，其中k等于数据中的观察总数，所有数据将被用作一次测试集。也称为遗漏一个交叉验证(LOOCV)。
重复随机业者:创建多个随机数据分区，用作训练集和测试集蒙特卡罗方法和聚合所有运行的结果。这种技术与k-fold有类似的思想，但每个测试集是独立选择的，这意味着一些数据点可能用于测试不止一次。
分层:对数据进行分区，使训练集和测试集在响应或目标中具有大致相同的类比例。
Resubstitution:不对数据进行分区，所有数据都用于训练模型。通过将结果与实际值进行比较来评估误差。这种方法通常会产生对性能过于乐观的估计，如果有足够的数据，应该避免使用这种方法。

交叉验证可能是计算密集型操作，因为培训和验证需要进行多次。然而，降低模型过拟合或过拟合的风险是模型开发的关键步骤。因为每个分区集都是独立的，所以您可以并行地执行此分析，以加快进程。对于较大的数据集，推荐使用抵制或替代等技术，而其他技术更适合于较小的数据集，如k倍和重复随机子抽样。