1.3 神经网络的学习_深度学习进阶：自然语言处理-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

1.3 神经网络的学习

不进行神经网络的学习，就做不到“好的推理”。因此，常规的流程是，首先进行学习，然后再利用学习好的参数进行推理。所谓推理，就是对上一节介绍的多类别分类等问题给出回答的任务。而神经网络的学习的任务是寻找最优参数。本节我们就来研究神经网络的学习。

1.3.1 损失函数

在神经网络的学习中，为了知道学习进行得如何，需要一个指标。这个指标通常称为损失（loss）。损失指示学习阶段中某个时间点的神经网络的性能。基于监督数据（学习阶段获得的正确解数据）和神经网络的预测结果，将模型的恶劣程度作为标量（单一数值）计算出来，得到的就是损失。

计算神经网络的损失要使用损失函数（loss function）。进行多类别分类的神经网络通常使用交叉熵误差（cross entropy error）作为损失函数。此时，交叉熵误差由神经网络输出的各类别的概率和监督标签求得。

现在，我们来求一下之前一直在研究的那个神经网络的损失。这里，我们将Softmax层和Cross Entropy Error层新添加到网络中。用Softmax层求Softmax函数的值，用Cross Entropy Error层求交叉熵误差。如果基于“层视角”来绘制此时的网络结构，则如图1-12所示。

图1-12 使用了损失函数的神经网络的层结构

在图1-12中，X是输入数据，t是监督标签，L是损失。此时，Softmax层的输出是概率，该概率和监督标签被输入Cross Entropy Error层。

下面，我们来介绍一下Softmax函数和交叉熵误差。首先，Softmax函数可由下式表示：

式（1.6）是当输出总共有n个时，计算第k个输出yk时的算式。这个yk是对应于第k个类别的Softmax函数的输出。如式（1.6）所示，Softmax函数的分子是得分sk的指数函数，分母是所有输入信号的指数函数的和。

Softmax函数输出的各个元素是0.0～1.0的实数。另外，如果将这些元素全部加起来，则和为1。因此，Softmax的输出可以解释为概率。之后，这个概率会被输入交叉熵误差。此时，交叉熵误差可由下式表示：

这里，tk是对应于第k个类别的监督标签。log是以纳皮尔数e为底的对数（严格地说，应该记为loge）。监督标签以one-hot向量的形式表示，比如t=（0, 0, 1）。

one-hot向量是一个元素为1，其他元素为0的向量。因为元素1对应正确解的类，所以式（1.7）实际上只是在计算正确解标签为1的元素所对应的输出的自然对数（log）。

另外，在考虑了mini-batch处理的情况下，交叉熵误差可以由下式表示：

这里假设数据有N笔，tnk表示第n笔数据的第k维元素的值，ynk表示神经网络的输出，tnk表示监督标签。

式（1.8）看上去有些复杂，其实只是将表示单笔数据的损失函数的式（1.7）扩展到了N笔数据的情况。用式（1.8）除以N，可以求单笔数据的平均损失。通过这样的平均化，无论mini-batch的大小如何，都始终可以获得一致的指标。

本书将计算Softmax函数和交叉熵误差的层实现为Softmax with Loss层（通过整合这两个层，反向传播的计算会变简单）。因此，学习阶段的神经网络具有如图1-13所示的层结构。

图1-13 使用Softmax with Loss层输出损失

如图1-13所示，本书使用Softmax with Loss层。这里我们省略对其实现的说明，代码在common/layers.py中，感兴趣的读者可以参考。此外，前作《深度学习入门：基于Python的理论与实现》的4.2节中也详细介绍了Softmax with Loss层。

1.3.2 导数和梯度

神经网络的学习的目标是找到损失尽可能小的参数。此时，导数和梯度非常重要。这里我们来简单说明一下导数和梯度。

现在，假设有一个函数y=f（x）。此时，y关于x的导数记为。这个的意思是变化程度，具体来说，就是x的微小（严格地讲，“微小”为无限小）变化会导致y发生多大程度的变化。

比如函数y=x2，其导数可以解析性地求出，即。这个导数结果表示x在各处的变化程度。实际上，如图1-14所示，它相当于函数的斜率。

图1-14 y=x2的导数表示x在各处的斜率

在图1-14中，我们求了关于x这一个变量的导数，其实同样可以求关于多个变量（多变量）的导数从严格意义上讲，对多变量函数的某个变量求得的导数称为偏导数。本书考虑到易读性，在不影响理解的情况下，统一使用“导数”一词。——译者注。假设有函数L=f（x），其中L是标量，x是向量。此时，L关于xi（x的第i个元素）的导数可以写成。另外，也可以求关于向量的其他元素的导数，我们将其整理如下：

像这样，将关于向量各个元素的导数罗列到一起，就得到了梯度（gradient）。

另外，矩阵也可以像向量一样求梯度。假设W是一个m×n的矩阵，则函数L=g（W）的梯度如下所示：

如式（1.10）所示，L关于W的梯度可以写成矩阵（准确地说，矩阵的梯度的定义如上所示）。这里的重点是，W和具有相同的形状。利用“矩阵和其梯度具有相同形状”这一性质，可以轻松地进行参数的更新和链式法则（后述）的实现。

严格地说，本书使用的“梯度”一词与数学中的“梯度”是不同的。数学中的梯度仅限于关于向量的导数。而在深度学习领域，一般也会定义关于矩阵和张量的导数，称为“梯度”。

1.3.3 链式法则

学习阶段的神经网络在给定学习数据后会输出损失。这里我们想得到的是损失关于各个参数的梯度。只要得到了它们的梯度，就可以使用这些梯度进行参数更新。那么，神经网络的梯度怎么求呢？这就轮到误差反向传播法出场了。

理解误差反向传播法的关键是链式法则。链式法则是复合函数的求导法则，其中复合函数是由多个函数构成的函数。

现在，我们来学习链式法则。这里考虑y=f（x）和z=g（y）这两个函数。如z=g（f（x））所示，最终的输出z由两个函数计算而来。此时，z关于x的导数可以按下式求得：

如式（1.11）所示，z关于x的导数由y=f（x）的导数和z=g（y）的导数之积求得，这就是链式法则。链式法则的重要之处在于，无论我们要处理的函数有多复杂（无论复合了多少个函数），都可以根据它们各自的导数来求复合函数的导数。也就是说，只要能够计算各个函数的局部的导数，就能基于它们的积计算最终的整体的导数。

可以认为神经网络是由多个函数复合而成的。误差反向传播法会充分利用链式法则来求关于多个函数（神经网络）的梯度。

1.3.4 计算图

下面，我们将研究误差反向传播法。不过在此之前，作为准备工作，我们先来介绍一下计算图的相关内容。计算图是计算过程的图形表示。图1-15所示为计算图的一个例子。

图1-15 z=x+y的计算图

如图1-15所示，计算图通过节点和箭头来表示。这里，“+”表示加法，变量x和y写在各自的箭头上。像这样，在计算图中，用节点表示计算，处理结果有序（本例中是从左到右）流动。这就是计算图的正向传播。

使用计算图，可以直观地把握计算过程。另外，这样也可以直观地求梯度。这里重要的是，梯度沿与正向传播相反的方向传播，这个反方向的传播称为反向传播。

这里我想先说明一下反向传播的全貌。虽然我们处理的是z=x+y这一计算，但是在该计算的前后，还存在其他的“某种计算”（图1-16）。另外，假设最终输出的是标量L（在神经网络的学习阶段，计算图的最终输出是损失，它是一个标量）。

图1-16 加法节点构成“复杂计算”的一部分

我们的目标是求L关于各个变量的导数（梯度）。这样一来，计算图的反向传播就可以绘制成图1-17。

图1-17 计算图的反向传播

如图1-17所示，反向传播用蓝色的粗箭头表示，在箭头的下方标注传播的值。此时，传播的值是指最终的输出L关于各个变量的导数。在这个例子中，关于z的导数是，关于x和y的导数分别是和。

接着，该链式法则出场了。根据刚才复习的链式法则，反向传播中流动的导数的值是根据从上游（输出侧）传来的导数和各个运算节点的局部导数之积求得的。因此，在上面的例子中，,。

这里，我们来处理z=x+y这个基于加法节点的运算。此时，分别解析性地求得,。因此，如图1-18所示，加法节点将上游传来的值乘以1，再将该梯度向下游传播。也就是说，只是原样地将从上游传来的梯度传播出去。

图1-18 加法节点的正向传播（左图）和反向传播（右图）

像这样，计算图直观地表示了计算过程。另外，通过观察反向传播的梯度的流动，可以帮助我们理解反向传播的推导过程。

在构成计算图的运算节点中，除了这里见到的加法节点之外，还有很多其他的运算节点。下面，我们将介绍几个典型的运算节点。

1.3.4.1 乘法节点

乘法节点是z=x×y这样的计算。此时，导数可以分别求出，即和。因此，如图1-19所示，乘法节点的反向传播会将“上游传来的梯度”乘以“将正向传播时的输入替换后的值”。

图1-19 乘法节点的正向传播（左图）和反向传播（右图）

另外，在目前为止的加法节点和乘法节点的介绍中，流过节点的数据都是“单变量”。但是，不仅限于单变量，也可以是多变量（向量、矩阵或张量）。当张量流过加法节点（或者乘法节点）时，只需独立计算张量中的各个元素。也就是说，在这种情况下，张量的各个元素独立于其他元素进行对应元素的运算。

1.3.4.2 分支节点

如图1-20所示，分支节点是有分支的节点。

图1-20 分支节点的正向传播（左图）和反向传播（右图）

严格来说，分支节点并没有节点，只有两根分开的线。此时，相同的值被复制并分叉。因此，分支节点也称为复制节点。如图1-20所示，它的反向传播是上游传来的梯度之和。

1.3.4.3 Repeat节点

分支节点有两个分支，但也可以扩展为N个分支（副本），这里称为Repeat节点。现在，我们尝试用计算图绘制一个Repeat节点（图1-21）。

图1-21 Repeat节点的正向传播（上图）和反向传播（下图）

如图1-21所示，这个例子中将长度为D的数组复制了N份。因为这个Repeat节点可以视为N个分支节点，所以它的反向传播可以通过N个梯度的总和求出，如下所示。

        >>> import numpy as np
        >>> D , N = 8 , 7
        >>> x = np.random.randn(1 , D)                # 输入
        >>> y = np.repeat(x , N , axis=0)              # 正向传播

        >>> dy = np.random.randn(N , D)               # 假设的梯度
        >>> dx = np.sum(dy , axis=0 , keepdims=True) # 反向传播

这里通过np.repeat（）方法进行元素的复制。上面的例子中将复制N次数组x。通过指定axis，可以指定沿哪个轴复制。因为反向传播时要计算总和，所以使用NumPy的sum（）方法。此时，通过指定axis来指定对哪个轴求和。另外，通过指定keepdims=True，可以维持二维数组的维数。在上面的例子中，当keepdims=True时，np.sum（）的结果的形状是（1, D）；当keepdims=False时，形状是（D,）。

NumPy的广播会复制数组的元素。这可以通过Repeat节点来表示。

1.3.4.4 Sum节点

Sum节点是通用的加法节点。这里考虑对一个N×D的数组沿第0个轴求和。此时，Sum节点的正向传播和反向传播如图1-22所示。

图1-22 Sum节点的正向传播（上图）和反向传播（下图）

如图1-22所示，Sum节点的反向传播将上游传来的梯度分配到所有箭头上。这是加法节点的反向传播的自然扩展。下面，和Repeat节点一样，我们也来展示一下Sum节点的实现示例，如下所示。

        >>> import numpy as np
        >>> D , N = 8 , 7
        >>> x = np.random.randn(N , D)              # 输入
        >>> y = np.sum(x , axis=0 , keepdims=True) # 正向传播

        >>> dy = np.random.randn(1 , D)             # 假设的梯度
        >>> dx = np.repeat(dy , N , axis=0)         # 反向传播

如上所示，Sum节点的正向传播通过np.sum（）方法实现，反向传播通过np.repeat（）方法实现。有趣的是，Sum节点和Repeat节点存在逆向关系。所谓逆向关系，是指Sum节点的正向传播相当于Repeat节点的反向传播，Sum节点的反向传播相当于Repeat节点的正向传播。

1.3.4.5 MatMul节点

本书将矩阵乘积称为MatMul节点。MatMul是Matrix Multiply的缩写。因为MatMul节点的反向传播稍微有些复杂，所以这里我们先进行一般性的介绍，再进行直观的解释。

为了解释MatMul节点，我们来考虑y=xW这个计算。这里，x、W、y的形状分别是1×D、D×H、1×H（图1-23）。

图1-23 MatMul节点的正向传播：矩阵的形状显示在各个变量的上方

此时，可以按如下方式求得关于x的第i个元素的导数。

式（1.12）的表示变化程度，即当xi发生微小的变化时，L会有多大程度的变化。如果此时改变xi，则向量y的所有元素都会发生变化。另外，因为y的各个元素会发生变化，所以最终L也会发生变化。因此，从xi到L的链式法则的路径有多个，它们的和是。

式（1.12）仍可进一步简化。利用，将其代入式（1.12）：

由式（1.13）可知，由向量和W的第i行向量的内积求得。从这个关系可以导出下式：

如式（1.14）所示，可由矩阵乘积一次求得。这里，WT的T表示转置矩阵。对式（1.14）进行形状检查，结果如图1-24所示。

图1-24 矩阵乘积的形状检查

如图1-24所示，矩阵形状的演变是正确的。由此，可以确认式（1.14）的计算是正确的。然后，我们可以反过来利用它（为了保持形状合规）来推导出反向传播的数学式（及其实现）。为了说明这个方法，我们再次考虑矩阵乘积的计算y=xW。不过，这次考虑mini-batch处理，假设x中保存了N笔数据。此时，x、W、y的形状分别是N×D、D×H、N×H，反向传播的计算图如图1-25所示。

图1-25 MatMul节点的反向传播

那么，将如何计算呢？此时，和相关的变量（矩阵）是上游传来的和W。为什么说和W有关系呢？考虑到乘法的反向传播的话，就容易理解了。因为乘法的反向传播中使用了“将正向传播时的输入替换后的值”。同理，矩阵乘积的反向传播也使用“将正向传播时的输入替换后的矩阵”。之后，留意各个矩阵的形状求矩阵乘积，使它们的形状保持合规。如此，就可以导出矩阵乘积的反向传播，如图1-26所示。

如图1-26所示，通过确认矩阵的形状，可以推导矩阵乘积的反向传播的数学式。这样一来，我们就推导出了MatMul节点的反向传播。现在我们将MatMul节点实现为层，如下所示（common/layers.py）。

图1-26 通过确认矩阵形状，推导反向传播的数学式

        class MatMul:
            def__init__（self, W）:
                self.params = [W]
                self.grads = [np.zeros_like（W）]
                self.x = None

            def forward（self, x）:
                W, = self.params
                out = np.dot（x, W）
                self.x = x
                return out

            def backward（self, dout）:
                W, = self.params
                dx = np.dot（dout, W.T）
                dW = np.dot（self.x.T, dout）
                self.grads[0][...] = dW
                return dx

MatMul层在params中保存要学习的参数。另外，以与其对应的形式，将梯度保存在grads中。在反向传播时求dx和dw，并在实例变量grads中设置权重的梯度。

另外，在设置梯度的值时，像grads[0][...] = dW这样，使用了省略号。由此，可以固定NumPy数组的内存地址，覆盖NumPy数组的元素。

和省略号一样，这里也可以进行基于grads[0] = dW的赋值。不同的是，在使用省略号的情况下会覆盖掉NumPy数组。这是浅复制（shallow copy）和深复制（deep copy）的差异。grads[0] = dW的赋值相当于浅复制，grads[0][...] = dW的覆盖相当于深复制。

省略号的话题稍微有些复杂，我们举个例子来说明。假设有a和b两个NumPy数组。

        >>> a = np.array([1 , 2 , 3])
        >>> b = np.array([4 , 5 , 6])

这里，不管是a = b，还是a[...] = b,a都被赋值[4,5,6]。但是，此时a指向的内存地址不同。我们将内存（简化版）可视化，如图1-27所示。

图1-27 a=b和a[...]=b的区别：使用省略号时数据被覆盖，变量指向的内存地址不变

如图1-27所示，在a = b的情况下，a指向的内存地址和b一样。由于实际的数据（4,5,6）没有被复制，所以这可以说是浅复制。而在a[...] = b时，a的内存地址保持不变，b的元素被复制到a指向的内存上。这时，因为实际的数据被复制了，所以称为深复制。

由此可知，使用省略号可以固定变量的内存地址（在上面的例子中，a的地址是固定的）。通过固定这个内存地址，实例变量grads的处理会变简单。

在grads列表中保存各个参数的梯度。此时，grads列表中的各个元素是NumPy数组，仅在生成层时生成一次。然后，使用省略号，在不改变NumPy数组的内存地址的情况下覆盖数据。这样一来，将梯度汇总在一起的工作就只需要在开始时进行一次即可。

以上就是MatMul层的实现，代码在common/layers.py中。

1.3.5 梯度的推导和反向传播的实现

计算图的介绍结束了，下面我们来实现一些实用的层。这里，我们将实现Sigmoid层、全连接层Affine层和Softmax with Loss层。

1.3.5.1 Sigmoid层

sigmoid函数由表示，sigmoid函数的导数由下式表示。

根据式（1.15）,Sigmoid层的计算图可以绘制成图1-28。这里，将输出侧的层传来的梯度（）乘以sigmoid函数的导数（），然后将这个值传递给输入侧的层。

图1-28 Sigmoid层的计算图

这里，我们省略sigmoid函数的偏导数的推导过程。相关内容会在附录A中介绍，感兴趣的读者可以参考一下。

接下来，我们使用Python来实现Sigmoid层。参考图1-28，可以像下面这样进行实现（common/layers.py）。

        class Sigmoid:
            def__init__（self）:
                self.params, self.grads = [], []
                self.out = None

            def forward（self, x）:
                out = 1 / （1 + np.exp（-x））
                self.out = out
                return out

            def backward（self, dout）:
                dx = dout * （1.0 - self.out） * self.out
                return dx

这里将正向传播的输出保存在实例变量out中。然后，在反向传播中，使用这个out变量进行计算。

1.3.5.2 Affine层

如前所示，我们通过y = np.dot（x, W） + b实现了Affine层的正向传播。此时，在偏置的加法中，使用了NumPy的广播功能。如果明示这一点，则Affine层的计算图如图1-29所示。

如图1-29所示，通过MatMul节点进行矩阵乘积的计算。偏置被Repeat节点复制，然后进行加法运算（可以认为NumPy的广播功能在内部进行了Repeat节点的计算）。下面是Affine层的实现（common/layers.py）。

图1-29 Affine层的计算图

        class Affine:
            def__init__（self, W, b）:
                self.params = [W, b]
                self.grads = [np.zeros_like（W）, np.zeros_like（b）]
                self.x = None

            def forward（self, x）:
                W, b = self.params
                out = np.dot（x, W） + b
                self.x = x
                return out

            def backward（self, dout）:
                W, b = self.params
                dx = np.dot（dout, W.T）
                dW = np.dot（self.x.T, dout）
                db = np.sum（dout, axis=0）

                self.grads[0][...] = dW
                self.grads[1][...] = db
                return dx

根据本书的代码规范，Affine层将参数保存在实例变量params中，将梯度保存在实例变量grads中。它的反向传播可以通过执行MatMul节点和Repeat节点的反向传播来实现。Repeat节点的反向传播可以通过np.sum（）计算出来，此时注意矩阵的形状，就可以清楚地知道应该对哪个轴（axis）求和。最后，将权重参数的梯度设置给实例变量grads。以上就是Affine层的实现。

使用已经实现的MatMul层，可以更轻松地实现Affine层。这里出于复习的目的，没有使用MatMul层，而是使用NumPy的方法进行了实现。

1.3.5.3 Softmax with Loss层

我们将Softmax函数和交叉熵误差一起实现为Softmax with Loss层。此时，计算图如图1-30所示。

图1-30 Softmax with Loss层的计算图

图1-30的计算图将Softmax函数记为Softmax层，将交叉熵误差记为Cross Entropy Error层。这里假设要执行3类别分类的任务，从前一层（靠近输入的层）接收3个输入。

如图1-30所示，Softmax层对输入a1, a2, a3进行正规化，输出y1, y2, y3。Cross Entropy Error层接收Softmax的输出y1, y2, y3和监督标签t1, t2, t3，并基于这些数据输出损失L。

在图1-30中，需要注意的是反向传播的结果。从Softmax层传来的反向传播有y1-t1, y2-t2, y3-t3这样一个很“漂亮”的结果。因为y1, y2, y3是Softmax层的输出，t1, t2, t3是监督标签，所以y1-t1, y2-t2, y3-t3是Softmax层的输出和监督标签的差分。神经网络的反向传播将这个差分（误差）传给前面的层。这是神经网络的学习中的一个重要性质。

这里我们省略对Softmax with Loss层的实现的说明，具体代码在common/layers.py中。另外，Softmax with Loss层的反向传播的推导过程在前作《深度学习入门：基于Python的理论与实现》的附录A中有详细说明，感兴趣的读者可以参考一下。

1.3.6 权重的更新

通过误差反向传播法求出梯度后，就可以使用该梯度更新神经网络的参数。此时，神经网络的学习按如下步骤进行。

· 步骤1:mini-batch

从训练数据中随机选出多笔数据。

· 步骤2：计算梯度

基于误差反向传播法，计算损失函数关于各个权重参数的梯度。

· 步骤3：更新参数

使用梯度更新权重参数。

· 步骤4：重复

根据需要重复多次步骤1、步骤2和步骤3。

我们按照上面的步骤进行神经网络的学习。首先，选择mini-batch数据，根据误差反向传播法获得权重的梯度。这个梯度指向当前的权重参数所处位置中损失增加最多的方向。因此，通过将参数向该梯度的反方向更新，可以降低损失。这就是梯度下降法（gradient descent）。之后，根据需要将这一操作重复多次即可。

我们在上面的步骤3中更新权重。权重更新方法有很多，这里我们来实现其中最简单的随机梯度下降法（Stochastic Gradient Descent,SGD）。其中，“随机”是指使用随机选择的数据（mini-batch）的梯度。

SGD是一个很简单的方法。它将（当前的）权重朝梯度的（反）方向更新一定距离。如果用数学式表示，则有：

这里将要更新的权重参数记为W，损失函数关于W的梯度记为。η表示学习率，实际上使用0.01、0.001等预先定好的值。

现在，我们来进行SGD的实现。这里考虑到模块化，将进行参数更新的类实现在common/optimizer.py中。除了SGD之外，这个文件中还有AdaGrad和Adam等的实现。

进行参数更新的类的实现拥有通用方法update（params, grads）。这里，在参数params和grads中分别以列表形式保存了神经网络的权重和梯度。此外，假定params和grads在相同索引处分别保存了对应的参数和梯度。这样一来，SGD就可以像下面这样实现（common/optimizer.py）。

        class SGD:
            def__init__（self, lr=0.01）:
                self.lr = lr

            def update（self, params, grads）:
                for i in range（len（params））:
                    params[i] -= self.lr * grads[i]

初始化参数lr表示学习率（learning rate）。这里将学习率保存为实例变量。然后，在update（params, grads）方法中实现参数的更新处理。

使用这个SGD类，神经网络的参数更新可按如下方式进行（下面的代码是不能实际运行的伪代码）。

        model = TwoLayerNet（...）
        optimizer = SGD()

        for i in range（10000）:
            ...
            x_batch, t_batch = get_mini_batch（...） # 获取mini-batch
            loss = model.forward（x_batch, t_batch）
            model.backward（）
            optimizer.update(model.params , model.grads)
            ...

像这样，通过独立实现进行最优化的类，系统的模块化会变得更加容易。除了SGD外，本书还实现了AdaGrad和Adam等方法，它们的实现都在common/optimizer.py中。这里省略对这些最优化方法的介绍，详细内容请参考前作《深度学习入门：基于Python的理论与实现》的6.1节。