上QQ阅读APP看书,第一时间看更新
4.3.4 升级梯度公式
我们还剩下最后一步,那就是升级损失函数的梯度计算公式,使其能够适应多维变量的情形。坦率地说,矩阵版的gradient()函数如下所示:
X.T表示“X转置后的矩阵”,我们已经在4.2.2节中讨论过这种矩阵运算。
我花了一点时间从老版本的gradient()函数转到现在这个新的、面向矩阵计算的函数。我在这里不打算给出关于这个函数的任何技术细节,因为这些内容太占篇幅了。当然,如果你很好奇,那么可以在本书配套网站ProgML[1]上阅读这个函数的有关技术细节。如果你觉得还不够,那么可以自己去研究除了新版本gradient()涉及多个输入变量之外,其他方面是否与旧版本gradient()一致。
[1] www.progml.com。参见ProgML网站上的“Of Gradients and Matrices”。