深度学习图像识别技术:基于TensorFlow Object Detection API和OpenVINO? 工具套件
上QQ阅读APP看书,第一时间看更新

第1章 人工智能、深度学习与目标检测

1.1 人工智能简介

1.1.1 什么是人工智能

人工智能(Artificial Intelligence,AI)是研究用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的与人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。

当前,AI已经进入了人们生活的方方面面,例如在语音识别方面有语音助手、翻译机及智能音箱等应用;在图像识别方面有智能驾驶、人脸识别和医学影像识别等应用,如图1-1所示。

图1-1 AI技术应用范围

1.1.2 人工智能发展简史

1946年,全球第一台通用计算机ENIAC诞生。它最初为美军作战研制,每秒能完成5000次加法,400次乘法等运算。ENIAC为人工智能的研究提供了物质基础。

1950年,被誉为计算机科学之父和人工智能之父的英国数学家和逻辑学家艾伦·麦席森·图灵(Alan Mathison Turing)发表了一篇论文Computing Machinery and Intelligence,提出若机器通过“图灵测试(The Turing Test)”,则被认为具有人类智能。

1956年,约翰·麦卡锡(John McCarthy)、马文·闵斯基(Marvin Minsky)、克劳德·香农(Claude Shannon)等科学家们在美国达特茅斯学院(Dartmouth College)的讨论会上,讨论了一个主题:用机器来模仿人类学习以及其他方面的智能。这次讨论会足足开了两个月,最终没有达成共识,但是他们却为这次讨论的内容取了一个名字:人工智能。因此, 1956年被称为人工智能元年,如图1-2所示。

图1-2 人工智能(AI)发展简史

达特茅斯会议后,计算机被用来解决代数应用题、证明几何定理、学习和使用英语。1965年,美国麻省理工学院AI实验室的约瑟夫·魏岑鲍姆(Joseph Weizenbaum)教授开发了Eliza聊天机器人,实现了计算机与人通过文本来交流,这些成果在得到广泛赞赏的同时很多学者开始惊呼“人工智能来了,再过十年机器就要超越人类了!”

ARPA(美国高等研究计划局)等政府机构向人工智能这一新兴领域投入了大笔资金。从20世纪50年代后期到60年代涌现了大批成功的AI程序和新的研究方向。人工智能进入了第一个黄金发展期(1956~1974年)。

到了20世纪70年代,由于计算机性能的不足,计算难度的指数级增长以及数据量缺失等问题,人工智能开始遭遇发展瓶颈。AI开始遭遇批评,随之而来的还有研究资金上的困难,由于AI研究缺乏进展,英国政府,DARPA和NRC等机构逐渐停止了对AI研究的资助。同时,由于Marvin Minsky对感知器的激烈批评,联结主义(即神经网络)销声匿迹了十年。人工智能发展进入了第一个寒冬。

20世纪80年代初,一类名为“专家系统”的AI程序开始为全世界的企业所采纳,人工智能研究迎来了新一轮高潮。这个黄金发展期中,AI专家系统用实践证明了可以让AI变得实用起来。AI专家系统具体指一种程序,能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。由于它只专注于某一个领域,因而设计简单,易于实现。

在研究资金上,日本于1982年4月制订了为期10年的“第五代计算机技术开发计划”,总投资1000亿日元,并称其将会成为人类计算机历史上的伟大变革。随后,英国、美国也纷纷响应,开始向AI和信息技术领域的研究提供大量资金。人工智能发展进入了第二个黄金发展期(1982~1989年)。

第二次人工智能黄金发展期仅仅持续了7年左右。由于AI专家系统维护费用居高不下,加上其操作复杂、太局限于经验知识和规则,难以构筑有效的系统,资本和政府支持再次撤出,日本雄心勃勃的“第五代计算机技术开发计划”也以失败告终,人工智能发展进入了第二个寒冬。

20世纪90年代中期,互联网和芯片计算能力的快速发展,加快了人工智能应用落地的速度。典型的事件:1997年5月,IBM公司的国际象棋计算机深蓝(DeepBlue)战胜了国际象棋世界冠军卡斯帕罗夫,这是人类第一次败给人工智能。

2006年,被称为“神经网络之父”“深度学习鼻祖”的Geoffrey Hinton在Science发文[1]指出“多隐层神经网络具有更为优异的特征学习能力,并且其在训练上的复杂度可以通过逐层初始化来有效缓解”,让人们看到了人工智能通过深度学习(Deep Learning)技术超越人类的希望,2006年也被称为深度学习元年。

在GPU加速和大数据的加持下,深度学习发展如火如荼。2012年,Geoffrey Hinton及其学生Alex Krizhevsky等创造了一个“大型的深度卷积神经网络(CNN)”[2],即现在众所周知的AlexNet,赢得了当年的ImageNet图像分类大赛冠军,首次实现了Top 5误差率从25.8%降到了15.4%,这个表现震惊了整个计算机视觉界。从那时起,卷积神经网络(CNN)成为家喻户晓的名字,2012年后的ImageNet图像分类大赛全部是基于CNN的神经网络模型夺冠。

2016年, Google子公司DeepMind开发的基于深度神经网络的人工智能围棋程序AlphaGo以4∶1战胜了拥有18个世界冠军头衔的棋王李世石,以深度学习技术为代表的人工智能再次火爆全球。随后,以中美两国为代表的多个国家纷纷出台类似《新一代人工智能发展规划》的国家级行业发展推动政策;AI再次成为资本界的宠儿,一个接一个的AI独角兽不断出现,估值飞涨。人工智能发展进入第三个黄金发展期(2006~现在)。

2017年7月8日,我国发布《新一代人工智能发展规划》,拉开了我国从国家层面支持和发展人工智能产业的序幕。

2019年5月24日,我国发布《中国新一代人工智能发展报告2019》(以下简称《报告》)。《报告》显示,我国人工智能发展已在部分方面具有优势。具体体现在:我国人工智能论文发文量全球领先,企业数量等多项指标居全球第二。2013~2018年,全球人工智能领域的论文文献产出共30.5万篇,其中我国发表论文7.4万篇;在全球居前1%的人工智能高被引论文中,我国居全球第二;在全球高被引前100篇论文中,我国有16篇入选。此外,据相关机构统计,截至2018年底,全球共成立人工智能企业15916家,我国人工智能企业数量为3341家,也位居世界第二位。

目前,AI已在金融、医疗及安防等多个领域实现了技术落地,而且应用场景也越来越丰富,引发了各个行业的深刻变革。未来AI的发展将是技术与产业的结合,实现AI技术赋能各行各业,解决痛点、创造价值、降本增效。在这个趋势下,作为AI工程师,应该更多地从应用价值切入,推动AI项目落地,而不是仅仅停留在AI模型调优上。

1.1.3 人工智能与深度学习的关系

2012年之前的人工智能算法基本都是由人去构造并提取特征(包括很多稀奇古怪的特征)的。2012年,Geoffrey Hinton及其学生Alex Krizhevsky使用深度卷积神经网络(CNN)让计算机自动去提取特征,在大算力和大数据的加持下,计算机自动提取特征比用人力去构造并提取特征更有优势,准确率更高、成本更低。

由于当前人工智能的大爆发是由深度学习引起的,所以各种媒体文章上,人工智能和深度学习两个概念经常被混用。从技术层面上来说,深度学习是机器学习诸多算法中的一种,而机器学习又是人工智能的一个子集,如图1-3所示。

图1-3 人工智能与深度学习

非技术类媒体文章使用AI的频率远远大于深度学习,因为公众对深度学习这个名字没有AI这么熟悉。可以看到幼儿园、早教培训班、中小学的人工智能教材都用的是AI这个名词。产品广告和市场宣传资料中,也多用AI,其目的也是让公众容易看懂。

从技术的角度来讲,总是用AI代替深度学习是不恰当的。本书在1.2节深度学习(Deep Learning)简介之前,基本用AI这个名词。在1.2节之后,涉及具体技术时,就会用深度学习。

总之,读者在阅读本书的时候,为了避免认知混淆,可以简单地认为AI=深度学习。AI多面向公众,深度学习多面向技术人员。