深度学习基础篇
第1章 绪论
1.1 引言
深度学习(Deep Learning)[1],是当今人工智能/机器学习领域研究和应用开发的热点。在“大数据+深度学习”的共同推动下,深度学习在ImageNet图像分类竞赛、语音理解、图像识别、视频分析、无人驾驶汽车领域都取得了重要突破。与传统方法不同,深度学习首先通过大规模的迭代实验(调参实验)逼近所能达到的最高识别准确率,然后使用对应的(参数和)模型对新样本(图像、声音等)提取关键特征,并基于该特征,利用已训练好的分类模型预测新样本的类别。目前,Google、Facebook、Microsoft等国际巨头,以及百度、腾讯、阿里巴巴、京东等国内互联网巨头都已投入巨资布局深度学习,并将其作为重要的研发方向。
1.1.1 Google的深度学习成果
2015年10月,Google(谷歌)旗下DeepMind公司研发了人工智能围棋程序,该程序主要使用深度学习的技术,整体上包含离线学习和在线对弈两个过程,其中离线学习主要利用大量已有棋谱进行训练“价值网络”去计算局面优劣,训练“策略网络”去选择下子位置;在线对弈主要利用“价值网络”计算当前棋面优劣,利用“策略网络”计算当前应该选择的下子位置。2015年,阿尔法围棋(AlphaGo)以5:0的总比分击败欧洲围棋冠军樊麾;紧接着,2016年3月,以4:1的总比分击败世界围棋冠军、职业九段选手李世石[2]。
而在此之前,2011年谷歌就成立了由人工智能和机器学习顶级学者吴恩达(Andrew Ng)领衔的“Google Brain”项目,这个项目利用谷歌的分布式计算框架训练深度人工神经网络。该项目的主要成果是使用包含16000个CPU核的并行计算平台,使用基于深度学习算法训练超过10亿个神经元的深度神经网络[3],该系统能够在没有任何先验知识的前提下,自动学习YouTube网站上海量的视频数据,训练深度神经网络。吴恩达目前是斯坦福大学计算机科学系和电子工程系副教授、人工智能实验室主任,并担任百度公司首席科学家,负责百度研究院的百度大脑计划。
1.1.2 Microsoft的深度学习成果
2012年,微软首席研究官Rick Rashid在“21世纪计算大会”上的英文演讲被实时翻译成与他音色很接近的中文演讲,该功能主要借助于基于深度学习技术实现的自动同声传译系统[4],自动同声传译过程主要是语音识别、机器翻译和语音合成。
1.1.3 国内公司的深度学习成果
2013年,百度成立了由知名学者余凯领导的百度深度学习研究院(Institute of Deep Learning,IDL),主要目标是将深度学习应用于语音识别和图像识别、智能检索等领域。现在,基于深度学习,百度的图像搜索更加准确,百度翻译更加专业,语音识别效果令人十分满意。目前,许多基于深度学习的产品已经面市,例如百度识别APP,该APP主要功能是图像识别和智能检索,其中拍照购物和通过照片匹配度来交友都是该APP中比较有特色的功能。百度在“小度机器人”和无人驾驶汽车领域等都取得了重要进展。小度机器人能够通过对话等自然的交互方式,准确理解用户意图,并与用户进行信息和服务等的交流。
阿里巴巴的“拍立淘”是基于“大数据+深度学习+图像处理”的构思开发的,网购用户通过手机拍照,利用“拍立淘”就能在淘宝中找到非常类似的产品,其搜索准确度和用户满意度非常高。
LinkFace(脸云科技)在2014年开创了基于深度学习的人脸检测算法,支持人脸检测、人脸识别、人脸关键点检测等全套技术,在FDDB数据集上的人脸识别准确率高达99.5%。图森(http://www.tusimple.com/)通过深度学习引擎,研发了图像识别和语义分析技术,为企业搭建了自己的图片识别服务,根据企业的实际业务设计了分类标签系统,精准描述企业图片分类需求。该公司还研发了基于摄像头的智能驾驶解决方案。