应用机器学习，第3部分:超参数优化

从系列中:应用机器学习

机器学习就是将模型拟合到 数据。 这个 过程通常涉及使用一种迭代算法来最小化模型误差。控制机器学习算法行为的参数称为超参数。 根据为超参数选择的值，您可能会得到一个完全不同的模型。因此，通过改变超参数的值，您可以找到不同的，并且希望更好的 模型。    

本视频介绍了超参数优化技术，包括网格搜索、随机搜索和贝叶斯优化。它解释了为什么随机搜索和贝叶斯优化优于标准网格搜索，并描述了在优化模型时超参数与特征工程的关系。

机器学习就是将模型与数据拟合。模型由参数组成，通过拟合得到参数的值。这个过程通常涉及某种类型的迭代算法，以最小化模型误差。这个算法有控制它如何工作的参数，这些就是我们所说的超参数。

在深度学习中，我们也把决定层特征的参数称为超参数。今天，我们将讨论这两方面的技巧。

我们为什么要关心超参数呢?事实证明，大多数机器学习问题都是非凸的。这意味着根据我们为超参数选择的值，我们可能会得到一个完全不同的模型。通过改变超参数的值，我们可以找到不同的，希望是更好的模型。

好的，我们知道我们有超参数，我们知道我们想要调整它们，但是我们该怎么做呢?一些超参数是连续的，一些是二进制的，还有一些可以取任意数量的离散值。这就产生了一个棘手的优化问题。对超参数空间进行彻底搜索几乎总是不可能的，因为它花费的时间太长了。

因此，传统上，工程师和研究人员使用网格搜索和随机搜索等技术进行超参数优化。在这个例子中，我使用网格搜索方法来改变支持向量机模型的2个超参数——盒约束和核尺度。正如您所看到的，对于不同的超参数值，得到的模型的误差是不同的。经过100次试验，搜索发现12.8和2.6是这些超参数最有希望的值。

最近，随机搜索比网格搜索更受欢迎。

“怎么可能呢?”你可能会问。

网格搜索难道不能更好地均匀地探索超参数空间吗?

假设你有两个超参数，A和B。你的模型对A很敏感，但对b不敏感如果我们做一个3x3的网格搜索，我们只会计算3个不同的a值但如果我们做随机搜索，我们可能会得到9个不同的“a”值，即使有些值可能很接近。因此，我们有更好的机会为“a”找到一个好的价值。在机器学习中，我们经常有很多超参数。有些对结果有很大影响，有些则没有。所以随机搜索通常是更好的选择。

网格搜索和随机搜索很好，因为很容易理解发生了什么。然而，它们仍然需要许多函数求值。它们也没有利用这样一个事实，即当我们计算越来越多的超参数组合时，我们会了解这些值如何影响我们的结果。出于这个原因，您可以使用创建代理模型的技术——或者作为超参数函数的误差近似值。

贝叶斯优化就是这样一种技术。这里我们看到一个运行的贝叶斯优化算法的例子，其中每个点对应于不同的超参数组合。我们还可以看到算法的代理模型，在这里显示为曲面，它用来选择下一组超参数。

贝叶斯优化的另一件很酷的事情是，它不只是看模型有多准确。它还可以考虑训练所需的时间。可能会有一组超参数导致训练时间增加100倍或更多，如果我们试图在截止日期前完成，这可能不是很好。您可以通过多种方式配置贝叶斯优化，包括每秒的预期改进，这将惩罚那些预计需要很长时间来训练的超参数值。

现在，做超参数优化的主要原因是改进模型。而且，尽管我们还可以做其他事情来改进它，但我喜欢把超参数优化看作是一种省力、高计算量的方法。这与特征工程相反，在特征工程中，您需要付出更高的努力来创建新特征，但需要更少的计算时间。并不总是很明显哪个活动将产生最大的影响，但超参数优化的好处是它很适合“夜间运行”，因此您可以在计算机工作时睡觉。

这就是超参数优化的简单解释。欲了解更多信息，请点击描述中的链接。