1.3 深度学习的应用领域
目前,深度学习在越来越多的领域表现出优越的性能,尤其体现在图像识别、语音识别和自然语言处理等领域。
1.3.1 图像识别领域
在物体识别问题上,深度学习的优势主要体现在ImageNet ILSVRC竞赛上,该竞赛是计算机视觉领域高度权威的竞赛,主要对1000类的物体图像进行识别。2012年,Geoffery Hinton和他的学生针对分类问题将分类Top-5错误率从原来的26.2%降低至15.3%,取得了当时领先的结果[15]。2013年,在ImageNet ILSVRC2013竞赛中,Clarifai模型[16]将分类Top-5错误率降低至11.197%;2014年,在ImageNet ILSVRC 2014竞赛中,GoogleNet[17]通过使用更深的卷积神经网络将分类Top-5错误率降低至6.67%;2015年,在ImageNet ILSVRC 2015竞赛中,微软亚洲研究院(MSRA)的深度网络Deep Residual Network[18]将分类Top-5错误率降低至3.567%。
在人脸识别领域,深度学习的优势主要体现在LFW[19](Labeled Faces in the Wild)竞赛上的识别准确率。LFW是目前最著名的人脸识别数据库,用来测试非可控条件下的人脸识别准确率,该数据库中的图片是从互联网中获得的,大部分图片在表情、光照、姿态等方面表现出不同的特性,香港中文大学汤晓鸥教授领导的团队设计的DeepID[20]算法取得高达99.53%的识别准确率。
1.3.2 语音识别领域
语音识别要解决的问题首先就是将语音中的音节识别出来,其次将合适的音节组成文字。上述过程构成了语音识别的两大组成部分:声学模型、语言模型[21]。在很长一段时间内,声学模型使用的是自动机的方法进行划分,最经典的建模方法是隐马尔可夫模型。而在语言模型方面一般分为规则模型和统计模型两种,统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。最近,基于深度神经网络技术,百度和科大讯飞在语音识别领域都取得了重要突破,百度的Deep Speech采用深度学习技术对语音进行识别,它可以在饭店等嘈杂环境下实现将近81%的辨识准确率。而同类商业版语音识别系统如Microsoft Bing、Google等公司的最高识别率只有65%[22]。
1.3.3 自然语言理解领域
应用深度学习模型进行自然语言处理,目前主流的做法是应用Recursive Neural Network(递归神经网络)和Recurrent Neural Network(循环神经网络)。其中,Recurrent Neural Network是非常有名的应用于情绪分析的树状神经网络模型,它是包含循环的网络,允许信息的持久化,更加适用于自然语言处理。