深度学习实战:基于TensorFlow 2和Keras(原书第2版)
上QQ阅读APP看书,第一时间看更新

第4章 卷积神经网络

在前面的章节中,我们讨论了DenseNet,其中每一层都完全连接到相邻的层。我们研究了这些稠密网络在MNIST手写字符数据集分类中的一个应用。在该应用中,将输入图像中的每个像素分配给一个神经元,总共有784(28×28像素)个输入神经元。但是,此策略没有利用每个图像之间的空间结构和关系。值得一提的是,这段代码是基于DenseNet的,它将代表每个手写数字的位图转换为平面向量,在该向量中移除了局部空间结构。移除空间结构是一个问题,因为重要信息丢失了:

103-01

卷积神经网络(Convolutional Neural Network,CNN)利用空间信息,因此非常适合对图像进行分类。这些网络使用的ad hoc架构受到视觉皮层上生理实验获得的生物学数据的启发。正如我们在第2章中讨论的那样,我们的视觉感知是基于多个皮层的,每个皮层识别出越来越多的结构化信息。首先,我们看到了单个像素,然后从中识别出简单的几何形式,然后识别出越来越复杂的元素,例如物体、面部、人体、动物等。

卷积神经网络是一个令人着迷的主题。在很短的时间内,它们已经证明自己是一种突破性技术,打破了从文本、视频到语音的多个领域的性能记录,远远超出了最初设想的图像处理领域。

在本章中,我们将介绍CNN的概念,这是一种对深度学习非常重要的特殊类型的神经网络。