第一节 人工智能应用大增长时代即将到来
虽然AlphaGo与AlphaStar被用于完成两种完全不同的竞技,但是它们实际上都基于同一种思想,即采用数据驱动的人工智能模型以完成非完全信息类博弈行为。同时,其更为显著的特征或者更耳熟能详的一个词——深度学习,已然成为二者的标签。
当我们在谈论这一轮人工智能浪潮的时候,深度学习必将被浓墨重彩地介绍一番。而提及深度学习,则会牵扯出更多概念性的词汇,如神经网络、深度学习、机器学习、人工智能等。
那么,它们各自是什么,关系又是什么呢?
从研究领域来进行一句话概括:深度学习是机器学习重要的分支,而机器学习则是人工智能的重要分支。近10年来,在对实际任务的具体研究中,表现最好的一些应用大部分都是基于深度学习的,而也正是因为以神经网络为基础的深度学习所具有的突出表现,引发了人工智能的第三次浪潮。那么,神经网络又是什么呢?简单来说,神经网络是一种模仿生物神经元结构和功能的数学模型或计算模型,其由大量的人工神经元连接进行计算,常用来对输入和输出间复杂的关系进行建模,或用来找到隐含在数据中的趋势或模式。在很多时候,我们可以给深度学习一个更学术的名字——深度神经网络模型。深度学习的研究起源于神经网络,并以神经网络为基础开拓了一条崭新的道路,让人们看到了实现强人工智能的希望。但是深度学习发展到现在,已经不仅仅停留在将神经网络加深,越来越多强大而实用的算法在这个领域绽放。尽管很多传统非神经网络的机器学习模型也通过模型的加深取得了很好的效果,但仅凭网络层数的加深这一特点,是无法将深度学习的强大概括完整的。然而本书不是专业论文,侧重于科普,那么,将深度学习约等于深度神经网络虽然有失公允,但实际上不会影响阅读效果。人工智能、机器学习和深度学习关系简图见图1-1。
图1-1 人工智能、机器学习和深度学习关系简图
既然是大数据驱动下基于神经网络的深度学习掀起了这一轮人工智能浪潮,那么,我们就有必要深入了解一下什么是神经网络,什么是深度学习,以及深度学习是如何实现机器智能的。我们先看一个具体的例子:机器通过深度学习来识别图像中的数字(见图1-2)。
图1-2 机器通过深度学习来识别图像中的数字
为了对图像中的数字进行识别,我们先将描述数字的图像向量化,作为神经网络的输入,随后再进行深度神经网络模型的搭建。深度神经网络模型包含若干个网络层,每层由若干神经元组成,均可接收信号,表示一种特定的输出函数(或运算),称为激励函数。层与层之间通过权重系数进行连接,基于激励函数和权重系数,神经网络对某种函数的逼近或映射关系进行近似描述。到这里就是深度学习的基础——神经网络的基本架构和思路了。
那么,具体如何识别数字呢?例如,这个28×28像素的图像(见图1-3)展示的数字是7,于是我们将其降维成一个784×1的向量,作为神经网络的输入,即这个神经网络输入层的神经元个数是784。我们预先在网络的出口都插一块字牌(0,1,…,9),对应每一个我们想让计算机认识的数字。这时,因为输入的是“7”,等信号流过整个神经网络,计算机就会“跑”到通道出口位置去“看一看”,是不是标记为“7”的通道出口的信号值最大。如果是这样,就说明神经网络参数配置在训练数据上符合要求。如果不是这样,就调节神经网络里的链接权重参数,让标记为“7”的通道出口的信号值最大。
图1-3 通过深度神经网络识别图像中的数字7
这下,计算机要忙一阵了,因为要调节那么多链接权重参数!好在计算机的速度足够快,飞速的计算加上算法的优化,计算机总是可以很快给出一个解决方案,调好所有链接权重参数,让通道出口处的信号强度符合数据集里绝大多数标签要求。这时,我们就可以说,这个神经网络是一个训练好的深度学习模型了。当大量数字被这个神经网络处理,所有链接权重参数都调节到位后,整套神经网络就可以用来识别手写数字了。
从以上描述来看,显然这样的深度学习神经网络不论是从数学模型还是从计算机算法的角度来看,理论上都很浅显。可是为什么深度学习近10年才得以迅猛发展呢?2006年是深度学习发展史的分水岭。杰弗里·辛顿在这一年发表了论文A fast learning algorithm for deep belief nets,告诉我们深度学习发展正当时,同年的论文Reducing the dimensionality of data with neural networks描绘了深度学习的前景。2012年,杰弗里·辛顿等人发表论文Imagenet classification with deep convolutional neural networks宣称,深度学习算力瓶颈被图形处理器(Graphics Processing Unit,GPU)正式攻克。2014年和2015年,论文Very deep convolutional networks for large-scale image recognition与Deep residual learning for image recognition相继发表,神经网络真正变得深不可测,深度学习模型训练梯度消失瓶颈被正式攻破。至此,深度学习引领的人工智能时代大幕徐徐拉开。
此外,新一轮人工智能浪潮的到来还因为以下两个条件已经成熟:
其一,2000年后互联网行业的飞速发展积累了海量数据,同时数据存储的成本也在快速下降,使得海量数据的存储和分析成为可能。
其二,GPU的不断成熟提供了必要的算力支持,既提高了算法可用性,又降低了算力成本。
而这正是大数据驱动的人工智能技术。大数据驱动是本轮人工智能浪潮的显著特征之一,那么,大数据驱动的人工智能(以下简称“大数据人工智能”)与大数据分析是不是一回事呢?具体的数据驱动的人工智能应用各不相同,但它们都有一个共同的特点:输入的数据越多,学到的东西就越多,智能模型的决策精度就会越高。这就是目前第三轮人工智能浪潮的本质:基于输入学习的计算机系统。同时,这也正是大数据分析和大数据人工智能的关键区别:大数据分析通过计算机算法扫描数据,不论这个扫描统计的过程多么先进,最终都需要通过人工来揭示趋势。人工智能可以在一定情况下相对独立地做出最终的判断和决策,也可以根据输入的状态进行智能调整。
通过前面对深度学习的讨论,我们不妨抛开宏观的思维,更具象地想一想,在本轮人工智能浪潮中,图像和语音的分析应用是不是能成为深度学习算法大展身手的主战场?不能马上回答也没关系,我来告诉你答案:这是肯定的。图像作为人们承载知识及表达知识最常用的工具,图像处理和识别一直都是经典问题,在近年得到了从基础算法到工业应用的全方位发展。图像处理和识别的关键点在于对图像的特征进行提取和归纳,针对这一问题,传统的数字图像处理一般是通过人为设计算子对预处理后的图像进行归纳识别。而深度学习出现后,人为设计算子被卷积神经网络取代,即神经网络自发对特征进行学习,无须额外的专家知识,从而使得特征识别更精确更具普适性。
在数字图像处理的基础上,人们发展了计算机视觉技术,而人工智能技术作为感知、认知和决策的综合,使计算机视觉的感知过程就像人类“看”的过程。更进一步地说,计算机视觉就是用视觉传感器代替人眼来对现实世界进行成像,利用计算机代替人脑对成像数据进行识别、跟踪和测量等,并进一步做出判断和决策。计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中感知的科学。从信息量比例的角度来看,人类认识和了解世界的信息有91%来自视觉,同样地,计算机视觉成为机器认知世界的基础,其终极目的是使计算机能够像人一样“看懂世界”。目前,计算机视觉主要应用在人脸识别、图像识别方面(包括静态、动态两类信息)。
这里有一对易于混淆的概念:计算机视觉与机器视觉。二者有很多相同之处,如传感手段都是视觉传感器、使用CMOS(互补金属氧化物半导体)、CCD(电荷耦合器件)等、信息处理过程都是独立于人的。但是从更深入的技术角度来看,二者又有很大的区别,这正是自动化系统与智能化系统的本质区别。简单来说,计算机视觉偏向于软件,通过算法对图像进行识别分析;而机器视觉软硬件都包括(如采集设备、光源、镜头、控制、机构、算法等),指的是系统,但更偏硬件。在此先以计算机视觉作为具体领域来看第三轮人工智能浪潮的兴起。
计算机视觉技术研究的起点在20世纪60年代,经过几十年的起起落落,终于在2010年进入了一个激动人心的年代,即深度学习的年代。正是深度学习从本质上带来了第三次人工智能革命。20世纪80年代,人们通过实验发现,猫会对形状非常类似的物品表现出同样的刺激反应,表明动物的认知过程是分层的。多层神经网络在经历2000年左右的一个低谷后(具体原因我们将在第二章中具体阐述),杰弗里·辛顿教授于2006年在《科学》发表了对于深层神经网络的训练方法,带来了深度学习的蓬勃发展。2012年,在ImageNet ILSVRC比赛中,冠军团队使用深度学习算法将识别错误率一举降低了10%,成为影响人工智能进程的里程碑事件,深度学习从此进入了广泛应用期。2015年,计算机视觉的识别能力正式超过了人眼的识别能力,其误识别率降低到3.57%。
学术上的突破带来了商业上的繁荣,从2010年开始,计算机视觉开始成为国内外各个公司关注的焦点,不论是初创企业还是龙头企业纷纷开始布局。商业上的繁荣助推了计算机视觉应用领域的飞速发展。计算机视觉应用领域见图1-4。
图1-4 计算机视觉应用领域
实际上,结合了深度学习的计算机视觉技术在近几年火爆的直播领域实现了大量的应用。例如,直播平台产生的海量内容会给平台的监管造成巨大压力,传统人工审核效果不稳定,而且需要投入巨大的人力,基于深度学习的计算机视觉技术的赋能,有效解决了这一痛点。与此同时,计算机视觉技术也可对前端的内容运营进行优化,如通过智能美颜、直播场景智能分类等提高用户的体验和活跃度。
从直播具体应用场景再进一步拓宽来看,与直播的UGC(用户产生内容)性质类似,其他的应用场景还有短视频平台、社交平台、云存储平台、CDN(内容分发网络)及社区平台等。
我们将视野进一步拓宽,无论是直播平台还是短视频平台,其本质上都是动态视觉的应用领域。动态视觉的应用领域还包括安防和监控领域。近几年,新一代智能监控系统——“电子警察”在上海、广州及武汉等部分地区陆续“上岗”。与传统视频监控不同的是,“电子警察”配备了人工智能技术,尤其是智能识别算法技术匹配强大的边缘计算硬件,促进了道路安防设备的快速升级迭代,智能化及边缘化监控“天眼”已是大势所趋。
从更高的维度来看,被誉为“第四次工业革命”的人工智能革命还将引领更宏大的社会变革。例如,语音类技术(包括语音识别、语音合成等),视觉类技术(包括生物识别、图像识别、视频识别等),以及自然语言处理类技术(包括机器翻译、文本挖掘、情感分析等)。又如各种AI赋能,包括智能机器人、智能驾驶、无人机、AR/VR、大数据及数据服务等。
不难判断,AI应用大增长的时代即将到来。