理解支持向量机回归- MATLAB和SimulinkgydF4y2Ba - 卡塔尔世界杯8强比赛直播

理解支持向量机回归gydF4y2Ba

支持向量机回归的数学公式gydF4y2Ba

概述gydF4y2Ba

支持向量机(SVM)分析是一种流行的用于分类和回归的机器学习工具，由Vladimir Vapnik和他的同事在1992年首次提出gydF4y2Ba［5］gydF4y2Ba．支持向量机回归被认为是一种非参数技术，因为它依赖于核函数。gydF4y2Ba

统计和机器学习工具箱™实现了线性ε-不敏感的支持向量机(ε-SVM)回归，它也被称为gydF4y2BalgydF4y2Ba1损失。在gydF4y2BaεgydF4y2Ba-支持向量机回归，训练数据集包括预测变量和观察响应值。目标是找到一个函数gydF4y2BafgydF4y2Ba（gydF4y2BaxgydF4y2Ba）gydF4y2Ba这偏离了gydF4y2BaygydF4y2Ba_ngydF4y2Ba对于每个训练点，其值不大于εgydF4y2BaxgydF4y2Ba，同时又尽可能的平整。gydF4y2Ba

线性支持向量机回归:原始公式gydF4y2Ba

假设我们有一组训练数据gydF4y2BaxgydF4y2Ba_ngydF4y2Ba是多元集合吗gydF4y2BaNgydF4y2Ba具有观测响应值的观测值gydF4y2BaygydF4y2Ba_ngydF4y2Ba．gydF4y2Ba

求线性函数gydF4y2Ba

$fgydF4y2Ba （gydF4y2Ba xgydF4y2Ba ）gydF4y2Ba ＝gydF4y2Ba xgydF4y2Ba'gydF4y2Ba βgydF4y2Ba +gydF4y2Ba bgydF4y2Ba ，gydF4y2Ba$

并确保它尽可能的平坦，找到gydF4y2BafgydF4y2Ba（gydF4y2BaxgydF4y2Ba）gydF4y2Ba最小范数(gydF4y2BaβgydF4y2Ba′gydF4y2BaβgydF4y2Ba)．这被表述为一个最小化的凸优化问题gydF4y2Ba

$JgydF4y2Ba （gydF4y2Ba βgydF4y2Ba ）gydF4y2Ba ＝gydF4y2Ba \frac{1gydF4y2Ba}{2gydF4y2Ba} βgydF4y2Ba'gydF4y2Ba βgydF4y2Ba$

受所有残差值小于ε的限制;或者，用方程形式:gydF4y2Ba

$\forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba |gydF4y2Ba {ygydF4y2Ba}_{ngydF4y2Ba} -gydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba}'gydF4y2Ba βgydF4y2Ba +gydF4y2Ba bgydF4y2Ba ）gydF4y2Ba |gydF4y2Ba \leqgydF4y2Ba εgydF4y2Ba ．gydF4y2Ba$

有可能没有这样的函数gydF4y2BafgydF4y2Ba（gydF4y2BaxgydF4y2Ba）gydF4y2Ba满足所有点的约束条件。为了处理其他不可行的约束，引入松弛变量gydF4y2BaξgydF4y2Ba_ngydF4y2Ba而且gydF4y2BaξgydF4y2Ba^＊gydF4y2Ba_ngydF4y2Ba对于每一个点。这种方法类似于支持向量机分类中的“软裕量”概念，因为松弛变量允许回归误差存在到的值gydF4y2BaξgydF4y2Ba_ngydF4y2Ba而且gydF4y2BaξgydF4y2Ba^＊gydF4y2Ba_ngydF4y2Ba，但仍然满足所需的条件。gydF4y2Ba

包括松弛变量就得到了目标函数，也称为原始公式gydF4y2Ba［5］gydF4y2Ba：gydF4y2Ba

$JgydF4y2Ba （gydF4y2Ba βgydF4y2Ba ）gydF4y2Ba ＝gydF4y2Ba \frac{1gydF4y2Ba}{2gydF4y2Ba} βgydF4y2Ba'gydF4y2Ba βgydF4y2Ba +gydF4y2Ba CgydF4y2Ba {\sumgydF4y2Ba}_{ngydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba} +gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba ，gydF4y2Ba$

主题:gydF4y2Ba

$\begin{array}{l} \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba {ygydF4y2Ba}_{ngydF4y2Ba} -gydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba}'gydF4y2Ba βgydF4y2Ba +gydF4y2Ba bgydF4y2Ba ）gydF4y2Ba \leqgydF4y2Ba εgydF4y2Ba +gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba} \\ \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba}'gydF4y2Ba βgydF4y2Ba +gydF4y2Ba bgydF4y2Ba ）gydF4y2Ba -gydF4y2Ba {ygydF4y2Ba}_{ngydF4y2Ba} \leqgydF4y2Ba εgydF4y2Ba +gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} \\ \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} \geqgydF4y2Ba 0gydF4y2Ba \\ \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba} \geqgydF4y2Ba 0gydF4y2Ba ．gydF4y2Ba \end{array}$

常数gydF4y2BaCgydF4y2Ba是框约束，是一个正数值，控制对位于epsilon边界之外的观察结果施加的惩罚(gydF4y2BaεgydF4y2Ba)并有助于防止过拟合(正则化)。的平整度之间的取舍gydF4y2BafgydF4y2Ba（gydF4y2BaxgydF4y2Ba）gydF4y2Ba以及偏差大于gydF4y2BaεgydF4y2Ba是容忍。gydF4y2Ba

线性ε-不敏感损耗函数忽略在gydF4y2BaεgydF4y2Ba观察值的距离，处理它们为零。损耗是根据观测值之间的距离来测量的gydF4y2BaygydF4y2Ba和gydF4y2BaεgydF4y2Ba边界。这被正式描述为gydF4y2Ba

${lgydF4y2Ba}_{εgydF4y2Ba} ＝gydF4y2Ba ｛gydF4y2Ba \begin{array}{l} 0gydF4y2Ba & 如果gydF4y2Ba |gydF4y2Ba ygydF4y2Ba -gydF4y2Ba fgydF4y2Ba （gydF4y2Ba xgydF4y2Ba ）gydF4y2Ba |gydF4y2Ba \leqgydF4y2Ba εgydF4y2Ba \\ |gydF4y2Ba ygydF4y2Ba -gydF4y2Ba fgydF4y2Ba （gydF4y2Ba xgydF4y2Ba ）gydF4y2Ba |gydF4y2Ba -gydF4y2Ba εgydF4y2Ba & 否则gydF4y2Ba \end{array}$

线性支持向量机回归:对偶公式gydF4y2Ba

前面描述的优化问题在拉格朗日对偶公式中计算起来更简单。对偶问题的解为原始(最小化)问题的解提供了一个下界。原始问题和对偶问题的最优值不一定相等，其差称为“对偶差”。但当问题是凸的并且满足约束条件时，原始问题的最优解的值由对偶问题的解给出。gydF4y2Ba

为了得到对偶公式，在原函数的基础上引入非负乘子构造一个拉格朗日函数gydF4y2BaαgydF4y2Ba_ngydF4y2Ba而且gydF4y2BaαgydF4y2Ba^＊gydF4y2Ba_ngydF4y2Ba对于每一个观察gydF4y2BaxgydF4y2Ba_ngydF4y2Ba．这就得到对偶公式，求最小值gydF4y2Ba

$lgydF4y2Ba （gydF4y2Ba αgydF4y2Ba ）gydF4y2Ba ＝gydF4y2Ba \frac{1gydF4y2Ba}{2gydF4y2Ba} {\sumgydF4y2Ba}_{我gydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} {\sumgydF4y2Ba}_{jgydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba （gydF4y2Ba {αgydF4y2Ba}_{jgydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{jgydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba {xgydF4y2Ba}_{我gydF4y2Ba}'gydF4y2Ba {xgydF4y2Ba}_{jgydF4y2Ba} +gydF4y2Ba εgydF4y2Ba {\sumgydF4y2Ba}_{我gydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba} +gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba +gydF4y2Ba {\sumgydF4y2Ba}_{我gydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} {ygydF4y2Ba}_{我gydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba}^{＊gydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba} ）gydF4y2Ba$

受限于gydF4y2Ba

$\begin{array}{l} {\sumgydF4y2Ba}_{ngydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba ＝gydF4y2Ba 0gydF4y2Ba \\ \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba 0gydF4y2Ba \leqgydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba} \leqgydF4y2Ba CgydF4y2Ba \\ \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba 0gydF4y2Ba \leqgydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} \leqgydF4y2Ba CgydF4y2Ba ．gydF4y2Ba \end{array}$

的gydF4y2BaβgydF4y2Ba参数可以用方程完全描述为训练观测值的线性组合gydF4y2Ba

$βgydF4y2Ba ＝gydF4y2Ba {\sumgydF4y2Ba}_{ngydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba} ．gydF4y2Ba$

用于预测新值的函数只依赖于支持向量:gydF4y2Ba

fgydF4y2Ba （gydF4y2Ba xgydF4y2Ba ）gydF4y2Ba ＝gydF4y2Ba {\sumgydF4y2Ba}_{ngydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba}'gydF4y2Ba xgydF4y2Ba ）gydF4y2Ba +gydF4y2Ba bgydF4y2Ba ．gydF4y2Ba

(1）gydF4y2Ba

KKT (Karush-Kuhn-Tucker)互补条件是获得最优解所需的优化约束。对于线性支持向量机回归，这些条件为gydF4y2Ba

$\begin{array}{l} \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba} （gydF4y2Ba εgydF4y2Ba +gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba} -gydF4y2Ba {ygydF4y2Ba}_{ngydF4y2Ba} +gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba}'gydF4y2Ba βgydF4y2Ba +gydF4y2Ba bgydF4y2Ba ）gydF4y2Ba ＝gydF4y2Ba 0gydF4y2Ba \\ \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} （gydF4y2Ba εgydF4y2Ba +gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} +gydF4y2Ba {ygydF4y2Ba}_{ngydF4y2Ba} -gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba}'gydF4y2Ba βgydF4y2Ba -gydF4y2Ba bgydF4y2Ba ）gydF4y2Ba ＝gydF4y2Ba 0gydF4y2Ba \\ \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba} （gydF4y2Ba CgydF4y2Ba -gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba} ）gydF4y2Ba ＝gydF4y2Ba 0gydF4y2Ba \\ \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} （gydF4y2Ba CgydF4y2Ba -gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba ＝gydF4y2Ba 0gydF4y2Ba ．gydF4y2Ba \end{array}$

这些条件表明，所有严格在epsilon管内的观测都具有拉格朗日乘子gydF4y2BaαgydF4y2Ba_ngydF4y2Ba= 0gydF4y2Ba而且gydF4y2BaαgydF4y2Ba_ngydF4y2Ba^＊gydF4y2Ba= 0gydF4y2Ba．如果任何一gydF4y2BaαgydF4y2Ba_ngydF4y2Ba或gydF4y2BaαgydF4y2Ba_ngydF4y2Ba^＊gydF4y2Ba不为零，那么对应的观测称为agydF4y2Ba支持向量gydF4y2Ba．gydF4y2Ba

房地产gydF4y2BaαgydF4y2Ba存储支持向量的两个拉格朗日乘子之间的差值，gydF4y2BaαgydF4y2Ba_ngydF4y2Ba- - - - - -gydF4y2BaαgydF4y2Ba_ngydF4y2Ba^＊gydF4y2Ba．的属性gydF4y2BaSupportVectorsgydF4y2Ba而且gydF4y2Ba偏见gydF4y2Ba商店gydF4y2BaxgydF4y2Ba_ngydF4y2Ba而且gydF4y2BabgydF4y2Ba,分别。gydF4y2Ba

非线性支持向量机回归:原始公式gydF4y2Ba

有些回归问题不能用线性模型充分描述。在这种情况下，拉格朗日对偶公式允许前面描述的技术扩展到非线性函数。gydF4y2Ba

通过替换点积得到非线性支持向量机回归模型gydF4y2BaxgydF4y2Ba_1gydF4y2Ba′gydF4y2BaxgydF4y2Ba_2gydF4y2Ba一个非线性核函数gydF4y2BaGgydF4y2Ba（gydF4y2BaxgydF4y2Ba_1gydF4y2Ba，gydF4y2BaxgydF4y2Ba_2gydF4y2Ba) = φgydF4y2Ba（gydF4y2BaxgydF4y2Ba_1gydF4y2Ba)，gydF4y2BaφgydF4y2Ba（gydF4y2BaxgydF4y2Ba_2gydF4y2Ba) >gydF4y2Ba,在那里gydF4y2BaφgydF4y2Ba（gydF4y2BaxgydF4y2Ba)是映射的转换gydF4y2BaxgydF4y2Ba高维空间。统计和机器学习工具箱提供了以下内置的正半定核函数。gydF4y2Ba

内核的名字gydF4y2Ba	核函数gydF4y2Ba
线性(积)gydF4y2Ba	$GgydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{jgydF4y2Ba} ，gydF4y2Ba {xgydF4y2Ba}_{kgydF4y2Ba} ）gydF4y2Ba ＝gydF4y2Ba {xgydF4y2Ba}_{jgydF4y2Ba}'gydF4y2Ba {xgydF4y2Ba}_{kgydF4y2Ba}$
高斯gydF4y2Ba	$GgydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{jgydF4y2Ba} ，gydF4y2Ba {xgydF4y2Ba}_{kgydF4y2Ba} ）gydF4y2Ba ＝gydF4y2Ba 经验值gydF4y2Ba （gydF4y2Ba -gydF4y2Ba {‖gydF4y2Ba {xgydF4y2Ba}_{jgydF4y2Ba} -gydF4y2Ba {xgydF4y2Ba}_{kgydF4y2Ba} ‖gydF4y2Ba}^{2gydF4y2Ba} ）gydF4y2Ba$
多项式gydF4y2Ba	$GgydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{jgydF4y2Ba} ，gydF4y2Ba {xgydF4y2Ba}_{kgydF4y2Ba} ）gydF4y2Ba ＝gydF4y2Ba {（gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba {xgydF4y2Ba}_{jgydF4y2Ba}'gydF4y2Ba {xgydF4y2Ba}_{kgydF4y2Ba} ）gydF4y2Ba}^{问gydF4y2Ba}$ ,在那里gydF4y2Ba问gydF4y2Ba在集合{2,3，…}中。gydF4y2Ba

的gydF4y2Ba格拉姆矩阵gydF4y2Ba是一个gydF4y2BangydF4y2Ba——- - - - - -gydF4y2BangydF4y2Ba包含元素的矩阵gydF4y2BaggydF4y2Ba_我gydF4y2Ba，gydF4y2Ba_jgydF4y2Ba= G (gydF4y2BaxgydF4y2Ba_我gydF4y2Ba，gydF4y2BaxgydF4y2Ba_jgydF4y2Ba）gydF4y2Ba．每个元素gydF4y2BaggydF4y2Ba_我gydF4y2Ba，gydF4y2Ba_jgydF4y2Ba等于这些预测因子的内积gydF4y2BaφgydF4y2Ba．然而，我们不需要知道gydF4y2BaφgydF4y2Ba，因为我们可以使用核函数直接生成Gram矩阵。利用该方法，非线性支持向量机找到最优函数gydF4y2BafgydF4y2Ba（gydF4y2BaxgydF4y2Ba）gydF4y2Ba在变换后的预测空间中。gydF4y2Ba

非线性支持向量机回归:对偶公式gydF4y2Ba

非线性支持向量机回归的对偶公式取代预测因子的内积(gydF4y2BaxgydF4y2Ba_我gydF4y2Ba′gydF4y2BaxgydF4y2Ba_jgydF4y2Ba)与格氏矩阵的对应元素(gydF4y2BaggydF4y2Ba_我gydF4y2Ba，gydF4y2Ba_jgydF4y2Ba)．gydF4y2Ba

非线性支持向量机回归找到最小的系数gydF4y2Ba

$lgydF4y2Ba （gydF4y2Ba αgydF4y2Ba ）gydF4y2Ba ＝gydF4y2Ba \frac{1gydF4y2Ba}{2gydF4y2Ba} {\sumgydF4y2Ba}_{我gydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} {\sumgydF4y2Ba}_{jgydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba （gydF4y2Ba {αgydF4y2Ba}_{jgydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{jgydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba GgydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{我gydF4y2Ba} ，gydF4y2Ba {xgydF4y2Ba}_{jgydF4y2Ba} ）gydF4y2Ba +gydF4y2Ba εgydF4y2Ba {\sumgydF4y2Ba}_{我gydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba} +gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba -gydF4y2Ba {\sumgydF4y2Ba}_{我gydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} {ygydF4y2Ba}_{我gydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba$

受gydF4y2Ba

用来预测新值的函数等于gydF4y2Ba

fgydF4y2Ba （gydF4y2Ba xgydF4y2Ba ）gydF4y2Ba ＝gydF4y2Ba {\sumgydF4y2Ba}_{ngydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba GgydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba} ，gydF4y2Ba xgydF4y2Ba ）gydF4y2Ba +gydF4y2Ba bgydF4y2Ba ．gydF4y2Ba

（2）gydF4y2Ba

KKT互补条件为gydF4y2Ba

$\begin{array}{l} \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba} （gydF4y2Ba εgydF4y2Ba +gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba} -gydF4y2Ba {ygydF4y2Ba}_{ngydF4y2Ba} +gydF4y2Ba fgydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba} ）gydF4y2Ba ）gydF4y2Ba ＝gydF4y2Ba 0gydF4y2Ba \\ \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} （gydF4y2Ba εgydF4y2Ba +gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} +gydF4y2Ba {ygydF4y2Ba}_{ngydF4y2Ba} -gydF4y2Ba fgydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba} ）gydF4y2Ba ）gydF4y2Ba ＝gydF4y2Ba 0gydF4y2Ba \\ \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba} （gydF4y2Ba CgydF4y2Ba -gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba} ）gydF4y2Ba ＝gydF4y2Ba 0gydF4y2Ba \\ \forallgydF4y2Ba ngydF4y2Ba ：gydF4y2Ba {ξgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} （gydF4y2Ba CgydF4y2Ba -gydF4y2Ba {αgydF4y2Ba}_{ngydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba ＝gydF4y2Ba 0gydF4y2Ba ．gydF4y2Ba \end{array}$

求解支持向量机回归优化问题gydF4y2Ba

规划求解算法gydF4y2Ba

最小化问题可以用标准的二次规划形式表示，用常用的二次规划技术求解。然而，使用二次规划算法的计算成本可能很高，特别是当Gram矩阵可能太大而无法存储在内存中时。使用分解方法可以加快计算速度，避免内存耗尽。gydF4y2Ba

分解方法gydF4y2Ba(也称为gydF4y2Ba分块和工作集方法gydF4y2Ba)将所有的观察结果分成两个不相交的集合:工作集和剩余集。分解方法在每次迭代中只修改工作集中的元素。因此，每次迭代只需要Gram矩阵的一些列，这减少了每次迭代所需的存储量。gydF4y2Ba

序列最小优化gydF4y2Ba(SMO)是解决支持向量机问题最常用的方法gydF4y2Ba[4]gydF4y2Ba．SMO执行一系列两点优化。在每次迭代中，基于使用二阶信息的选择规则选择两个点的工作集。然后用文中描述的方法解析求解该工作集的拉格朗日乘子gydF4y2Ba[２]gydF4y2Ba而且gydF4y2Ba[1]gydF4y2Ba．gydF4y2Ba

在支持向量机回归中，梯度向量gydF4y2Ba $\nablagydF4y2Ba lgydF4y2Ba$ 活动集在每次迭代后更新。梯度向量的分解方程为gydF4y2Ba

${（gydF4y2Ba \nablagydF4y2Ba lgydF4y2Ba ）gydF4y2Ba}_{ngydF4y2Ba} ＝gydF4y2Ba ｛gydF4y2Ba \begin{matrix} {\sumgydF4y2Ba}_{我gydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba GgydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{我gydF4y2Ba} ，gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba} ）gydF4y2Ba +gydF4y2Ba εgydF4y2Ba -gydF4y2Ba {ygydF4y2Ba}_{ngydF4y2Ba} ，gydF4y2Ba ngydF4y2Ba \leqgydF4y2Ba NgydF4y2Ba \\ -gydF4y2Ba {\sumgydF4y2Ba}_{我gydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba GgydF4y2Ba （gydF4y2Ba {xgydF4y2Ba}_{我gydF4y2Ba} ，gydF4y2Ba {xgydF4y2Ba}_{ngydF4y2Ba} ）gydF4y2Ba +gydF4y2Ba εgydF4y2Ba +gydF4y2Ba {ygydF4y2Ba}_{ngydF4y2Ba} ，gydF4y2Ba ngydF4y2Ba >gydF4y2Ba NgydF4y2Ba \end{matrix} ．gydF4y2Ba$

迭代单数据算法gydF4y2Ba(ISDA)每次迭代更新一个拉格朗日乘子gydF4y2Ba[3]gydF4y2Ba．在进行ISDA时，通常不使用偏差项gydF4y2BabgydF4y2Ba通过加一个小的正常数gydF4y2Ba一个gydF4y2Ba到核函数。下降gydF4y2BabgydF4y2Ba删除求和约束gydF4y2Ba

${\sumgydF4y2Ba}_{ngydF4y2Ba ＝gydF4y2Ba 1gydF4y2Ba}^{NgydF4y2Ba} （gydF4y2Ba {αgydF4y2Ba}_{我gydF4y2Ba} -gydF4y2Ba {αgydF4y2Ba}^{＊gydF4y2Ba} ）gydF4y2Ba ＝gydF4y2Ba 0gydF4y2Ba$

在对偶方程中。这允许我们在每次迭代中更新一个拉格朗日乘子，这使得它比SMO更容易去除异常值。ISDA在所有的KKT中选择了最严重的违反者gydF4y2BaαgydF4y2Ba_ngydF4y2Ba而且gydF4y2BaαgydF4y2Ba_ngydF4y2Ba^＊gydF4y2Ba值作为要更新的工作集。gydF4y2Ba

收敛性判别准则gydF4y2Ba

每一种求解算法都迭代计算，直到满足指定的收敛条件。收敛标准有以下几种选择:gydF4y2Ba

可行性的差距gydF4y2Ba-可行性差距表示为gydF4y2Ba

$ΔgydF4y2Ba ＝gydF4y2Ba \frac{JgydF4y2Ba （gydF4y2Ba βgydF4y2Ba ）gydF4y2Ba +gydF4y2Ba lgydF4y2Ba （gydF4y2Ba αgydF4y2Ba ）gydF4y2Ba}{JgydF4y2Ba （gydF4y2Ba βgydF4y2Ba ）gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba} ，gydF4y2Ba$

在哪里gydF4y2BaJgydF4y2Ba（gydF4y2BaβgydF4y2Ba）gydF4y2Ba原始目标和gydF4y2BalgydF4y2Ba（gydF4y2BaαgydF4y2Ba）gydF4y2Ba是双重目标。在每次迭代之后，软件评估可行性差距。如果可行性差距小于指定的值gydF4y2BaGapTolerancegydF4y2Ba，则算法满足收敛准则，软件返回解。gydF4y2Ba
梯度差异gydF4y2Ba-在每次迭代之后，软件计算梯度向量，gydF4y2Ba $\nablagydF4y2Ba lgydF4y2Ba$ ．如果当前迭代和前一次迭代的梯度向量值的差值小于gydF4y2BaDeltaGradientTolerancegydF4y2Ba，则算法满足收敛准则，软件返回解。gydF4y2Ba
最大的马违反gydF4y2Ba-在每次迭代之后，软件评估所有的KKT违反gydF4y2BaαgydF4y2Ba_ngydF4y2Ba而且gydF4y2BaαgydF4y2Ba_ngydF4y2Ba^＊gydF4y2Ba值。如果最大的违规小于指定的值gydF4y2BaKKTTolerancegydF4y2Ba，则算法满足收敛准则，软件返回解。gydF4y2Ba

参考文献gydF4y2Ba

[1]范，R.E.，陈p.h.，林c.j.。支持向量机的smoo型分解方法研究。gydF4y2Ba神经网络学报，gydF4y2Ba17:893 - 908卷,2006年。gydF4y2Ba

[2]范，R.E.，陈p.h.，林c.j.。用二阶信息选择工作集训练支持向量机。gydF4y2Ba机器学习研究杂志，gydF4y2Ba6:1871 - 1918卷,2005年。gydF4y2Ba

[3]黄，t.m.， V. Kecman, I. Kopriva。gydF4y2Ba基于核的大数据集挖掘算法:监督、半监督和无监督学习。gydF4y2Ba施普林格，纽约，2006年。gydF4y2Ba

[4]普拉特,J。gydF4y2Ba序列最小优化:一种训练支持向量机的快速算法。gydF4y2Ba技术报告MSR-TR-98-14, 1999gydF4y2Ba

[5] Vapnik, V。gydF4y2Ba统计学习理论的本质。gydF4y2Ba施普林格，纽约，1995年。gydF4y2Ba

另请参阅gydF4y2Ba

RegressionSVMgydF4y2Ba|gydF4y2BafitrsvmgydF4y2Ba|gydF4y2Ba预测gydF4y2Ba|gydF4y2BaresubPredictgydF4y2Ba