让我们再次讨论一下学习率。在本章最后一个示例中,我们使用了取值为0.001的学习率。如果你尝试着提高这个数值,就可能会发现较大的学习率有时会导致损失增加而不是减少。你能想出这是为什么吗?
如果你不能在脑海中想象出答案,那就试着在纸上画出损失函数。当学习率非常大的时候会发生什么?同样,如果你遇到困难,就请查阅目录03_gradient/solution。