3.1 深度学习
3.1.1 深度学习的诞生
1981年,两位神经生物学家大卫·胡贝尔(David Hubel)和托尔斯滕·魏泽尔(Torsten Wiesel)连同另一位科学家分享了诺贝尔医学奖,这两位神经生物学家的主要贡献在于“发现了视觉系统的信息处理方式,即可视皮层是分级的”。1958年,David Hubel和Torsten Wiesel在美国的约翰霍普金斯大学开展了关于瞳孔区域与大脑皮层神经元的对应关系的研究。他们给小猫展示形状和亮度各不相同的物体,并改变每个物体放置的位置与角度。在这一过程中,小猫的瞳孔感受不同类型和不同强度的刺激,小猫的后脑则被插入电极,用来测量神经元的活跃程度。
该实验的目的是验证一个假设:位于后脑皮层的不同视觉神经元与瞳孔感受到的刺激信号之间存在某种相关性。一旦瞳孔受到某种特定的刺激,后脑皮层的某些特定神经元就会活跃。经过长期的试验后,David Hubel和Torsten Wiesel发现了一种特定的神经元细胞——方向选择性细胞(Orientation Selective Cell)。当瞳孔发现了眼前物体的边缘,而且这个边缘指向某个方向时,方向选择性细胞就会活跃。这一发现不仅在生理学上具有里程碑式的意义,而且激发了人们对神经系统的进一步思考,促成了人工智能在40年后的突破性发展。
方向选择性细胞提示人们,“神经-中枢-大脑”的工作过程或许是一个不断迭代、不断抽象的过程。人眼处理来自外界的视觉信息遵循的是这样的流程:先提取出目标物的边缘特性,再从边缘特性中提取出目标物的特征,最后将不同的特征组合成相应的整体,进而准确地区分不同的物体。高层特征是低层特征的组合,从低层到高层的过程中,特征变得越来越抽象,语义和意图的表现越来越清晰,存在的歧义越来越少,对目标物的识别也越来越精确。
深度学习在功能上受到了大脑视觉系统中感受视野特征的启发。在深度学习中,利用多个隐藏层模拟该过程。第一个隐藏层学习到的是“边缘”的特征,第二个隐藏层学习到的是由“边缘”组成的“形状”的特征,第三个隐藏层学习到的是由“形状”组成的“图案”的特征,最后一个隐藏层学习到的是由“图案”组成的“目标”的特征。当然,这样的识别思想不仅仅适用于视觉信息的处理,对其他类型的信息也同样适用。
2006年,加拿大多伦多大学教授、机器学习领域的资深专家辛顿在国际权威学术期刊《科学》上刊文,深度学习就此闪亮登场。辛顿的文章表达了两个主要观点:其一,具备多个隐藏层的人工神经网络(也就是深度学习)具有优异的特征学习能力,习得的特征能够实现对数据更加本质性的刻画,有利于对数据的可视化或分类;其二,深度学习在训练上的难度可以通过“逐层初始化(Layer-wise Pre-training)”来有效克服,逐层初始化则可以通过无监督学习来实现。
3.1.2 深度学习的优势
人工神经网络的本质是通过计算机算法来模仿、简化和抽象人类大脑的若干基本特性。起起落落之后,得益于深度学习的研究,人工神经网络产业如今迎来了第三个高速发展的时期。
深度学习又被称为深度神经网络(Deep Neural Network),其基础是人工神经网络,“深度”则体现在神经网络的层数及每一层的节点数量上。传统的神经网络最多只包含3个层次,简单的结构决定了它能够运行的功能相当有限。在此基础上,深度学习采用包含输入层、多个隐藏层和输出层组成的多层网络,这种分层结构是深度学习模仿人类大脑的核心结构特征。
与深度学习相对应的是浅层学习(Shallow Learning)。浅层学习的局限性在于样本数量有限、在计算单元情况下对复杂函数的表示能力有限,以及针对复杂分类问题其泛化能力受到一定制约。深度学习的一个优势是克服了浅层学习的弱点,通过深层非线性网络结构实现复杂函数的逼近和表征输入数据的分布式表示,展现出强大的从少数样本集中学习数据集本质特征的能力。学习特征的过程可以视为特征空间的变换过程,通过特征的逐层变换,将样本在原空间的特征表示变换成一个新空间的特征表示。这样的变换能够有效去除不同特征之间的相关性,从而使分类或预测更加容易。
深度学习的另一个优势是能够从海量数据中进行特征的自动提取。在浅层学习中,依赖先验知识的手工设置特征处于统治地位,在这类特征的设计中只允许出现少量的参数,设计出的特征的不变性与可区分性也远非最佳。深度学习可以从大数据中自动学习特征的表示,其中包含成千上万个参数。手工设计出有效的特征是一个相当漫长的过程。回顾计算机视觉的发展历史,往往需要5~10年才能出现一个受到广泛认可的特征,而深度学习可以针对新的应用从训练数据中很快学习得到新的有效的特征表示。
虽然深度学习通过特征的自动提取将人类从手工特征设计中解放出来,但目前在深度神经网络的架构中,网络层数、每层神经元的种类和个数、训练算法参数等超参数可能对学习结果有着决定性的影响。这些超参数的设置和调节,仍然高度依赖人类的经验。自动网络结构学习和超参数调节是深度学习从技术走向科学的必由之路。此外,深度学习从原始自然信号中提取特征并完成任务的过程是个缺乏可解释性的“黑盒子”,类似于哺乳动物的低级认知功能。基于抽象符号和规则的逻辑推理作为人工智能的早期方法,虽然能部分模拟人的高级认知功能,却和现有的神经网络框架不相匹配。如何把深度学习的过程和人类已经积累的大量高度结构化的知识融合,发展出逻辑推理甚至自我意识等人类的高级认知功能,是下一代深度学习的核心理论问题。