1.4 人工神经网络的发展简史
深度学习概念是由英国出生的加拿大计算机学家和心理学家杰弗里·辛顿(Geoffrey Hinton)于2006年首次提出的,是人工神经网络进一步发展的产物。因此,要了解深度学习的发展历史,就首先要了解人工神经网络的发展历史。
人工神经网络的研究始于20世纪40年代,距今已近八十年了!“McCulloch and Pitts.A logical calculus of the ideas immanent in nervous activity. Bulletin of mathematical Biophysics, Vol.5, No.4, pp.115-133, 1943”被认为是介绍人工神经网络的第一篇论文,在这篇文章中,首次提出了人工神经元模型,即M-P模型。
加拿大著名的神经心理学家唐纳德·赫布(Donald Olding Hebb)在其1949年出版的著作《The Organization of Behavior. New York, Wiley》中首次提出了学习规则,后称“Hebb规则”,为神经网络的学习算法奠定了基础。Hebb学习规则与“条件反射”机理是一致的。
1958年,康奈尔大学的实验心理学家弗兰克·罗森布拉特(Frank Rosenblatt)在计算机上模拟实现了称为“感知机”的神经网络模型,“The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, Vol.65, No.6, pp.386-408, 1958”。这个模型可以通过训练自动确定神经元的连接权重,神经网络由此迎来了第一次热潮。
感知机被认为能够模拟人脑的工作,因此,美国国防部等政府机构纷纷赞助研究,神经网络的风光持续了十多年。
1962年,大卫·休伯尔(David Hunter Hubel)和托斯坦·威泽尔(Torsten Wiesel)发表了“Receptive Fields, Binocular Interaction and Functional Architecture in the Cat's Visual Cortex”一文,第一次报道了由微电极记录的单个神经元的响应特征,日后的深度学习网络的架构类似于视觉皮质的层次结构。
1969年,人工智能之父马文·明斯基(Marvin Lee Minsky)等人指出,感知机无法解决线性不可分问题“Minsky and Papert. Perceptrons: An Introduction to Computational Geometry. MIT press, 1969”。这一缺陷的公布,浇灭了人们对神经网络的热情,资助逐渐停止,神经网络陷入了长达10年的低潮。
1974年,哈佛大学的博士沃波斯(Paul Werbos)证明了神经网络在多加一层后,可以解决线性不可分问题,可惜的是,这一证明使神经网络的研究陷入了低潮,没有能够拯救神经网络“Paul Werbos. Beyond regression:New tools for prediction and analysis in the behavioral sciences. PhD thesis, Harvard University, 1974”。
直到20世纪80年代,通过全世界一批科学家不懈的努力,神经网络终于引来了复兴。
神经网络的第一次复兴,首功应该归功于美国生物物理学家约翰·霍普菲尔德(John Joseph Hopfield)。他在加州理工学院担任生物物理教授期间,于1982年发表了“Neural networks and physical systems with emergent collective computational abilities, Proceedings of the National Academy of Sciences, National Academy of Sciences, 1982, 2554-2558”一文,提出了全新的神经网络—离散型Hopfield神经网络,可以解决一大类模式识别问题,还可以解决一类组合优化问题。1984年霍普菲尔德用模拟集成电路构建出了连续型Hopfield神经网络“Neurons with graded response have collective computational properties like those of two-state neurons, Proceedings of the National Academy of Sciences, National Academy of Sciences, 1984, 3088-3092”。霍普菲尔德提出的模型让人们再次认识到人工神经网络的威力和付诸应用的现实性,引起了巨大的反向。而且,由于霍普菲尔德的模型来自纯粹的物理领域,之后吸引了大批物理学家加入人工神经网络的研究。
1980年,日本科学家福岛邦彦(Kunihiko Fukushima)在论文“K. Fukushima:Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position, Biological Cybernetics, 36[4], pp. 193-202 (April 1980).”首次提出了一个包含卷积层、池化层的神经网络结构。1982年,福岛邦彦等人提出了神经认知机,用计算机模拟了生物的视觉传导通路,奠定了计算机视觉处理的技术基础。“Fukushima and Miyake. Neocognitron: A new algorithm for pattern recognition tolerant of deformations and shifts in position. Pattern Recognition, Vol.15, No.6, pp. 455-469, 1982”。
1985年,美国心理学家鲁姆哈特(David Rumelhart)、辛顿等人提出了误差反向(BP)算法来训练神经网络,解决了多层神经网络的训练问题。BP算法在很长一段时间内一直作为神经网络训练的专用算法。“Rumelhart, David E., Hinton, Geoffrey E., Williams, Ronald J.Learning representations by back-propagating errors. Nature, 1985, 323(6088); 533-536”。
1995年,杨立昆(Yann LeCun,卷积神经网络之父,Facebook AI研究院院长)等人将相当于生物初级视觉皮层的卷积层引入神经网,提出了卷积神经网络。这种网络模拟了视觉皮层中的细胞,根据特定细胞只对特定方向的边缘发生反应的原理,使网络分层完成对图像的分类。“Bengio, Y.LeCun, Y.Convolutional networks for images, speech, and time-series, 1995”1998年,在这个基础上,杨立昆在论文“Y.LeCun, L.Bottou, Y.Bengio, and P.Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, Vol.86, No.11, pp2278-2324, 1998”中提出了LeNet-5,将BP算法应用到这个神经网络结构的训练上,就形成了当代卷积神经网络的雏形。
发展不会总是一帆风顺的。
BP算法虽然可以完成多层神经网络的分层训练,但是,训练时间过长,而且只能根据经验设定参数,容易产生过拟合问题,以及会出现梯度消失问题,再加上支持向量机等浅层学习算法表现不俗,神经网络又一次被人遗弃。
在这一轮低潮中,辛顿、加拿大计算机科学家约书亚·本吉奥(Yoshua Bengio)等人坚持不懈地研究神经网络。2006年,辛顿和他的学生在Science杂志上发表的文章再次掀起了深度学习的浪潮。“Hinton, Geoffrey, Salakhutdinov, Ruslan. Reducing the Dimensionalityof Data with Neural Networks. Science, 2006(313)504-507”。
2009年,微软研究院和辛顿合作研究基于深度神经网络的语音识别,其误差降低了25%。“NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D.Yu)”
2011年,弗兰克·塞得(Frank Seide)等人的研究成果在语音识别基准测试中获得了压倒性优势。
2012年,辛顿又带领他的学生,在Imagenet图像识别大赛中,引入了全新的深层结构和dropout方法,在图像识别领域分类问题取得惊人成就,将Top5错误率从26%降至15%“Krizhevsky, Alex, Sutskever, Ilya, Hinton, Geoffrey: Image Net Classification with Deep Convolutional Neural Networks. NIPS 2012: Neural Informatiopn Processing Systems, Lake Tahoe, Nevada, 2012”。2013年辛顿又提出Dropconnect处理过拟合方法,将错误率进一步降到了11%。到2016年,ILSVRC的图像识别错误率已经达到了2.9%。
自2011年起,神经网络在语音识别和图像识别基准测试中获得了极大成功,看到了实用的曙光,自此引来了神经网络的第三次崛起。
第三次崛起与前面不同,因为有了硬件的支持和大量训练数据的支持,其基础更加扎实。
2014年,Ian Goodfellow等人发表了论文“Goodfellow, Ian J., Pouget-Abadie, Jean, Mirza, Mehdi, Xu, Bing, Warde-Farley, David, Ozair, Sherjil, Aaron, Bengio, Yoshua. Generative Adversarial Networks, 2014”,提出了生成对抗网络,标志着GAN的诞生,并从2016年开始,成为学界、业界炙手可热的概念,为创建无监督学习提供了强有力的算法框架。神经网络的3个发展阶段如图1-11所示。
图1-11 神经网络的3个发展阶段
2019年3月27日晚,ACM(国际计算机学会)宣布,有“深度学习三巨头”之称的杨立昆、辛顿、本吉奥共同获得了2018年的图灵奖,如图1-12所示。
图1-12 深度学习三巨头Yann LeCun、Geoffrey Hinton、Yoshua Bengio
神经网络经过70多年的发展,已经产生了各种类型的神经网络,表1-1列出了主要的神经网络种类。
表1-1 常见神经网络种类一览表
续表
续表
表格中的网络简图图例: