自动微分背景- MATLAB & Simulink - MathWorks - 卡塔尔世界杯8强比赛直播

自动鉴别背景

什么是自动区分?

自动区分(也称为autodiff，广告,或算法的区别)是一个广泛使用的深度学习工具。它对于创建和训练复杂的深度学习模型特别有用，而无需手动计算导数以进行优化。有关如何创建和自定义深度学习模型、训练循环和损失函数的示例，请参见定义自定义训练循环、损失函数和网络。

自动微分是一组计算导数(梯度)数值的技术。该方法使用符号规则进行微分，比有限差分近似更精确。与纯粹的符号方法不同，自动微分在计算的早期对表达式进行数值计算，而不是执行大量的符号计算。换句话说，自动微分计算特定数值处的导数;它不为导数构造符号表达式。

转发模式通过同时执行初等导数运算和求函数本身的运算来求数值导数。下一节将详细介绍，软件在计算图上执行这些计算。
反模式自动微分使用正向模式计算图的扩展，通过对图的反向遍历来计算梯度。当软件运行代码来计算函数及其导数时，它在一个称为a的数据结构中记录操作跟踪。

正如许多研究人员所指出的那样(例如Baydin, Pearlmutter, Radul和Siskind)[1])，对于多变量的标量函数，反向模式比正向模式更有效地计算梯度。由于深度学习损失函数是所有权重的标量函数，因此deep learning Toolbox™自动微分使用反向模式。

转发模式

考虑这个函数及其梯度的求值问题:

$f （ x ） = x_{1} 经验值（ - \frac{1}{2} （ x_{1}^{2} + x_{2}^{2} ））。$

自动微分在特定点起作用。在这种情况下，取x₁= 2,x₂= 1/2。

下面的计算图对函数的计算进行编码f（x)。

显示函数f(x)编码的计算图。

计算的梯度f（x)使用前向模式，您可以在相同的方向上计算相同的图，但根据基本的微分规则修改计算。为了进一步简化计算，您可以填写每个子表达式的导数值u_我随你的便。为了计算整个梯度，你必须遍历图两次，一次是对每个自变量的偏导数。链式法则中的每个子表达式都有一个数值，因此整个表达式具有与函数本身相同的求值图。

这个计算是链式法则的重复应用。在这个例子中，的导数f关于x₁展开为这个表达式:

$\begin{matrix} \frac{d f}{d x_{1}} = \frac{d u_{6}}{d x_{1}} \\ = \frac{\partial u_{6}}{\partial u_{- 1}} + \frac{\partial u_{6}}{\partial u_{5}} \frac{\partial u_{5}}{\partial x_{1}} \\ = \frac{\partial u_{6}}{\partial u_{- 1}} + \frac{\partial u_{6}}{\partial u_{5}} \frac{\partial u_{5}}{\partial u_{4}} \frac{\partial u_{4}}{\partial x_{1}} \\ = \frac{\partial u_{6}}{\partial u_{- 1}} + \frac{\partial u_{6}}{\partial u_{5}} \frac{\partial u_{5}}{\partial u_{4}} \frac{\partial u_{4}}{\partial u_{3.}} \frac{\partial u_{3.}}{\partial x_{1}} \\ = \frac{\partial u_{6}}{\partial u_{- 1}} + \frac{\partial u_{6}}{\partial u_{5}} \frac{\partial u_{5}}{\partial u_{4}} \frac{\partial u_{4}}{\partial u_{3.}} \frac{\partial u_{3.}}{\partial u_{1}} \frac{\partial u_{1}}{\partial x_{1}} 。 \end{matrix}$

让 ${\dot{u}}_{我}$ 表示表达式的导数u_我关于x₁。的求值u_我从函数求值开始，计算偏导数f关于x₁如下图所示。的所有值 ${\dot{u}}_{我}$ 在从上到下遍历图时变得可用。

计算图显示了f对x1的偏导数的计算。

来计算关于的偏导数x₂，你遍历一个类似的计算图。因此，当您计算函数的梯度时，图遍历的次数与变量的数量相同。对于典型的深度学习应用程序来说，这个过程太慢了，因为这些应用程序有数千或数百万个变量。

反模式

反向模式使用计算图的一次前向遍历来建立跟踪。然后它计算函数的整个梯度在图的反方向的一次遍历中。对于深度学习应用来说，这种模式要高效得多。

反向模式背后的理论也是基于链式法则，以及用上杠表示的相关伴随变量。的伴随变量u_我是

${\bar{u}}_{我} = \frac{\partial f}{\partial u_{我}} 。$

在计算图中，从一个变量出发的每个箭头都通过链式法则中的项贡献给相应的伴随变量。例如，变量u₁有指向两个变量的箭头，u₁和u₆。图中有相关方程

$\begin{matrix} \frac{\partial f}{\partial u_{- 1}} = \frac{\partial f}{\partial u_{1}} \frac{\partial u_{1}}{\partial u_{- 1}} + \frac{\partial f}{\partial u_{6}} \frac{\partial u_{6}}{\partial u_{- 1}} \\ = {\bar{u}}_{1} \frac{\partial u_{1}}{\partial u_{- 1}} + {\bar{u}}_{6} \frac{\partial u_{6}}{\partial u_{- 1}} 。 \end{matrix}$

在此计算中，忆及 $u_{1} = u_{- 1}^{2}$ 和u₆=u₅u₁，你得到

${\bar{u}}_{- 1} = {\bar{u}}_{1} 2 u_{- 1} + {\bar{u}}_{6} u_{5} 。$

在图的正向遍历过程中，软件计算中间变量u_我。在反向遍历期间，从种子值开始 ${\bar{u}}_{6} = \frac{\partial f}{\partial f} = 1$ ，反模计算得到所有变量的伴随值。因此，反向模式只需一次计算梯度，与正向模式相比节省了大量的时间。

下图显示了该函数在反模式下的梯度计算

$f （ x ） = x_{1} 经验值（ - \frac{1}{2} （ x_{1}^{2} + x_{2}^{2} ））。$

同样，计算需要x₁= 2,x₂= 1/2。逆模计算依赖于u_我在原始计算图中计算函数时获得的值。在图的右部分，伴随变量的计算值出现在伴随变量名称旁边，使用图的左部分的公式。

计算图显示了上面定义的函数在反模式下的梯度计算。

最终的梯度值显示为 ${\bar{u}}_{0} = \frac{\partial f}{\partial u_{0}} = \frac{\partial f}{\partial x_{2}}$ 和 ${\bar{u}}_{- 1} = \frac{\partial f}{\partial u_{- 1}} = \frac{\partial f}{\partial x_{1}}$ 。

有关更多详细信息，请参阅Baydin、Pearlmutter、Radul和Siskind[1]或Wikipedia关于自动区分的文章[2]。

参考文献

[1] Baydin, a.g.， b.a. Pearlmutter, a.a. Radul和j.m. Siskind。“机器学习中的自动区分:调查”。机器学习研究杂志，18(153)， 2018, pp. 1-43。可以在https://arxiv.org/abs/1502.05767。

[2]自动分化。维基百科。可以在https://en.wikipedia.org/wiki/Automatic_differentiation。

另请参阅

dlarray|dlgradient|dlfeval|dlnetwork

自动鉴别背景

什么是自动区分?

转发模式

反模式

参考文献

另请参阅

相关的话题