多智能体技术及应用
上QQ阅读APP看书,第一时间看更新

1.1 人工智能发展的三次浪潮

人工智能(Artificial Intelligence, AI)充满着未知的探索,道路曲折起伏。如何描述人工智能自1956年以来60余年的发展历程,学术界可谓仁者见仁、智者见智。我们将人工智能的发展历程划分为三次浪潮。

1.人工智能的第一次浪潮(1950~1980)

在人类几千年文明史中,人们发明了各种各样的机器设备来模拟和延伸人的体力活动。在计算机出现之前,人们就幻想着一种机器可以实现人类的思维,可以帮助人们解决问题,甚至比人类有更高的智力。随着计算机技术的迅猛发展和日益广泛的应用,自然地提出人类智力活动能不能由计算机来实现的问题。像语言的理解和翻译、图形和声音的识别、决策管理等都属于非数值计算,特别像医疗诊断要有专门的特有的经验和知识的医师才能做出正确的诊断。这就要求计算机能从“数据处理”扩展到能“知识处理”的范畴。计算机能力范畴的转化是导致“人工智能”快速发展的重要因素。

人工智能的第一次浪潮始于20世纪50年代。

(1)计算机与智能

冯·诺依曼被称为现代计算机之父,解决了计算机存储程序和程序控制问题,也就是说,通常我们使用计算机,不仅要告诉计算机要做什么,还必须详细地、正确地告诉计算机怎么做。也就是说,人们要根据任务的要求,以适当的计算机语言,编制针对该任务的应用程序,才能应用计算机完成此项任务。

但是这样的计算机或程序有智能吗?

实际上,这是由人完全控制计算机完成的,根本谈不上计算机有“智能”。

如果一台计算机或者程序有智能,怎样测试这个智能呢?为此,图灵提出了如何评估一个机器是否有智能的方法。

1950年英国数学家图灵(A. M. Turing, 1912~1954)发表了“计算机与智能”的论文,提出了著名的“图灵测试”,形象地提出人工智能应该达到的智能标准。图灵在这篇论文中认为“不要问一个机器是否能思维,而是要看它能否通过以下的测试:让人和机器分别位于两个房间,他们只可通话,不能互相看见。通过对话,如果人的一方不能区分对方是人还是机器,那么就可以认为那台机器达到了人类智能的水平。

案例1-1:“图灵梦想”对话

图灵设计的被称为“图灵梦想”对话。在这段对话中,“询问者”代表人,“智者”代表机器,并且假定他们都读过狄更斯(C. Dickens)的著名小说《匹克威克外传》,对话内容如下:

询问者:在14行诗的首行是“你如同夏日”,你不觉得“春日”更好吗?

智者:它不合韵。

询问者:“冬日”如何?它可完全合韵的。

智者:它确是合韵,但没有人愿意被比作“冬日”。

询问者:你不是说过匹克威克先生让你想起圣诞节吗?

智者:是的。

询问者:圣诞节是冬天的一个日子,我想匹克威克先生对这个比喻不会介意吧。

智者:我认为您不够严谨,“冬日”指的是一般冬天的日子,而不是某个特别的日子,如圣诞节。

从上面的对话可以看出,能满足这样的要求,要求计算机不仅能模拟而且可以延伸、扩展人的智能,达到甚至超过人类智能的水平,在目前是难以达到的,它是人工智能研究的根本目标。

(2)达特茅斯会议——人工智能学科的诞生

如果说人工智能诞生需要三个条件:一是计算机,二是图灵测试,那么第三就是达特茅斯会议。

1956年夏,约翰·麦卡锡(John McCarthy)、马文·明斯基(Marvin Lee Minsky)等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(Artificial Intelligence, AI)”这一概念,标志着人工智能学科的诞生。麦卡锡(John McCarthy)指出:人工智能就是制造智能的机器,更特指制作人工智能的程序,也就是说,可以是一个物理的机器人,也可以是一个虚拟的人工智能。人工智能模仿人类的思考方式使计算机能智能地思考问题,人工智能通过研究人类大脑的思考、学习和工作方式,然后将研究结果作为开发智能软件和系统的基础。

简单说就是人工智能是让机器实现原来只有人类才能完成的任务,其核心是算法。时至今日,人工智能的内涵已经大大扩展,涉及计算机科学、心理学、哲学和语言学等学科。可以说几乎是自然科学和社会科学的所有学科,是一门交叉学科。

(3)AI的黄金时代(1956~1976)

第一波浪潮实际上是从1956年至1976年,达特茅斯会议之后,人工智能研究进入了20年的黄金时代。

在美国,成立于1958年的国防高级研究计划署对人工智能领域进行了数百万的投资,让计算机科学家们自由地探索人工智能技术新领域。

案例1-2:第一个聊天程序ELIZA——对话就是模式匹配

这个阶段诞生了世界上第一个聊天程序ELIZA,它是由麻省理工学院的人工智能学院在1964~1966年期间编写的,能够根据设定的规则,根据用户的提问进行模式匹配,然后从预先编写好的答案库中选择合适的回答。这也是第一个尝试通过图灵测试的软件程序,ELIZA曾模拟心理治疗医生和患者交谈,在首次使用的时候就骗过了很多人。那个年代的人对他评价很高,有些病人甚至喜欢跟机器人聊天。但是他的实现逻辑非常简单,就是一个有限的对话库,当病人说出某个关键词时,机器人就回复特定的话。“对话就是模式匹配”,这是计算机自然语言对话技术的开端。

案例1-3:西洋跳棋程序——推理就是搜索

1959年,计算机游戏先驱亚瑟·塞缪尔在IBM的首台商用计算机IBM 701上编写了西洋跳棋程序,这个程序顺利战胜了当时的西洋棋大师罗伯特尼赖。

西洋跳棋是个简单的游戏,棋子每次只能向斜对角方向移动,但如果斜对角有敌方棋子并且可以跳过去,那么就把敌方这个棋子吃掉。塞缪尔的跳棋程序会对所有可能跳法进行搜索,并找到最佳方法。“推理就是搜索”,是这个时期主要研究方向之一。

案例1-4:第一代机器人产品WABOT-1

在日本,早稻田大学1967年启动了WABOT项目,至1972年完成了第一代机器人产品WABOT-1,有双手双脚,有摄像头视觉和听觉装置。虽然这个机器人能够搬东西也能移动双脚,但每走一步要45s,而且只能走10cm,相当地笨重缓慢。

案例1-5:约翰·麦卡锡——人工智能语言LISP

在这个黄金时代里,约翰·麦卡锡开发了LISP语言,成为以后几十年来人工智能领域最主要的编程语言。

案例1-6:米切尔·费根鲍姆的Dendral和知识工程

专家系统的起源可以追溯到黄金时代,1965年,在斯坦福大学,美国著名计算机学家费根鲍姆带领学生开发了第一个专家系统Dendral,这个系统可以根据化学仪器的读数自动鉴定化学成分。费根鲍姆还是斯坦福大学认知实验室的创始人,20世纪70年代在这里还开发了另外一个用于血液病诊断的专家程序MYCIN(霉素),这可能是最早的医疗辅助系统软件。

专家系统是一个具有大量专门知识与经验的程序系统。它应用人工智能技术,根据某个领域一个或多个人类专家提供的知识和经验进行推理和判断,模拟人类专家的决策过程,以解决那些需要专家决定的复杂问题。

他的重大贡献在于通过实验和研究,证明了实现智能行为的主要手段在于知识,在多数实际情况下是特定领域的知识。

案例1-7:XCON

1978年,卡耐基梅隆大学开始开发一款能够帮助顾客自动选配计算机配件的软件程序XCON,并且在1980年真实投入工厂使用,这是个完善的专家系统,包含了设定好的超过2500条规则,在后续几年处理了超过80000条订单,准确度超过95%,每年节省超过2500万美元。XCON取得的巨大商业成功,20世纪80年代2/3的世界500强公司开始开发和部署各自领域的专家系统,据统计,在1980~1985这5年间,就有超过10亿美元投入到人工智能领域,大部分用于企业内的人工智能部门,也涌现出很多人工智能软硬件公司。

案例1-8:日本五代机的研制

1982年,日本政府发起了第五代计算机系统研究计划,预计投入8.5亿美元,目的是抢占未来信息技术的先机,创造具有划时代意义的超级人工智能计算机。

日本尝试使用大规模多核CPU并行计算来解决人工智能计算力问题,专家系统是其核心部分,希望打造面向更大的人类知识库的专家系统来实现更强的人工智能。这个项目在10年后基本以失败结束,主要是当时低估了PC发展的速度,尤其是Intel的x86芯片架构在很快的几年内就发展到足以应付各个领域专家系统的需要。

然而,第五代计算机计划极大地推进了日本工业信息化进程,加速了日本工业的快速崛起;另一方面,这开创了并行计算的先河,至今我们使用的多核处理器和神经网络芯片,都受到了20多年前这个计划的启发。

当各个垂直领域的专家系统纷纷取得成功之后,尤其是日本试图抢占先机的第五代计算机计划的刺激,美国和很多欧洲国家也加入到这个赛道中来。

案例1-9:超级人工智能计划Cyc

1982年美国数十家大公司联合成立微电子与计算机技术公司(MCC),该公司1984发起了人工智能历史上最大也是最有争议性的项目——Cyc,该项目最开始的目标是将上百万条知识编码成机器可用的形式,用以表示人类常识。目前Cyc项目大部分的工作仍然是以知识工程为基础的。大部分的事实是通过手工添加到知识库中,并在这些知识基础上进行高效推理的。Cyc项目的目的是建造一个包含全人类全部知识的专家系统。根据维基百科,Cyc系统已经包含了320万条人类定义的断言,涉及30万个概念,并且建造还在持续,曾经在各个领域产生超过100个实际应用,它也被认为是当今最强人工智能IBM Woston的前身。

但随着科技的发展,21世纪到来之后,Cyc这种传统依赖人类专家手工整理知识和规则的技术,受到了网络搜索引擎技术、自然语言处理技术以及神经网络等新技术的挑战,未来发展并不明朗。

从20世纪70年代开始,由于计算能力有限,而科学家一开始的预测又过于乐观,导致研究和期望产生了巨大的落差,公众热情和投资削减,20世纪70年代中期,第一次人工智能的研究进入低谷。

第一次人工智能浪潮起于1950年,止于1980年。第一次浪潮并没有使用什么全新的技术,主要代表就是专家系统和非智能对话机器人。

2.人工智能的第二次浪潮(1980~2006)

人工智能的第二次浪潮始于20世纪80年代。此时的主流理论流派被称为联结主义。我们现在讲的神经网络、机器学习等概念,在这一阶段都已提出。

曾经一度被非常看好的神经网络技术,过分依赖于计算力和经验数据量,因此长时期没有取得实质性的进展。沉寂10年之后,神经网络又有了新的研究进展,尤其是1982年英国科学家霍普菲尔德几乎同时与杰弗里·辛顿发现了具有学习能力的神经网络算法,这使得神经网络一路发展,在后面的20世纪90年代开始商业化,被用于文字图像识别和语音识别。BP(Back Propagation)算法被提出,用于多层神经网络的参数计算,以解决非线性分类和学习的问题。

在第二次浪潮中,语音识别是最具代表性的几项突破之一。核心突破原因就是放弃了符号学派的思路,改为了统计思路解决实际问题。这个时期也称为统计学建模的春天。

1988年,美国科学家朱迪亚·皮尔将概率统计方法引入人工智能的推理过程中,这对后来人工智能的发展起到了重大影响。IBM的沃森研究中心把概率统计方法引入到人工智能的语言处理中,Candide项目基于200多万条语句实现了英语和法语之间的自动翻译。同年,英国人工智能科学家卡朋特开发了Jabberwacky聊天程序,尝试更好地通过图灵测试,至今这个程序的后续版cleverbot仍然很多人在使用。

在1986年,决策树方法被提出,很快ID3、ID4、CART等改进的决策树方法相继出现。

1995年,线性SVM被统计学家Vapnik提出。1997年,AdaBoost被提出,该方法通过一系列的弱分类器集成,达到强分类器的效果。

2000年,KernelSVM被提出,核化的SVM通过一种巧妙的方式将原空间线性不可分的问题,通过Kernel映射成高维空间的线性可分问题,成功解决了非线性分类的问题,且分类效果非常好。至此也更加终结了神经网络时代。

2001年,随机森林被提出,这是集成方法的另一代表,该方法的理论扎实,能比AdaBoost更好地抑制过拟合问题,实际效果也非常不错。

2001年,一种新的统一框架图模型被提出,该方法试图统一机器学习混乱的方法,如朴素贝叶斯、SVM、隐马尔可夫模型等,为各种学习方法提供一个统一的描述框架。

案例1-10:第一辆自动驾驶汽车VaMoRs

1986年,慕尼黑的联邦国防军大学把一辆梅赛德斯-奔驰面包车安装上了计算机和各种传感器,实现了自动控制方向盘、油门和刹车。这是真正意义上的第一辆自动驾驶汽车,称为VaMoRs,开起来时速超过80km。这辆车看起来很笨重,这是由于当时硬件发展限制,整个车的后半部分都是用来安装计算机设备的,摄像头在前玻璃后视镜位置附近。

案例1-11:聊天机器人程序Alice

1995年,理查德华莱士受到20世纪60年代聊天程序ELIZA的启发,开发了新的聊天机器人程序Alice,它能够利用互联网不断增加自身的数据集,优化内容。虽然Alice也并不能真的通过图灵测试,但它的设计思想影响深远,2013年奥斯卡获奖影片《her(她)》就是以Alice为原型创作的。

案例1-12:IBM的计算机深蓝(Deep blue)

1997年,IBM的计算机深蓝Deep blue战胜了人类世界象棋冠军卡斯帕罗夫。实际上,在1996年,深蓝就曾经与卡斯帕罗夫对战,但并没有取胜,还受到卡斯帕罗夫的嘲笑,它认为计算机下棋缺乏悟性,永远不会战胜人类。1996年失败之后,IBM对深蓝进行了升级,它拥有480块专用的CPU,运算速度翻倍,每秒可以预测2亿次,可以预测未来8步或更多的棋局。这种情况下人类冠军只能惜败。战后,卡斯帕罗夫表示深蓝有时可以“像上帝一样思考”。虽然这次世纪之战只是计算机依赖速度和蛮力,在规则明确、条件透明的游戏中才能取得的胜利。

案例1-13:递归神经网络

1997年,两位德国科学霍克赖特和施米德赫伯提出了长期短期记忆(LSTM),这是一种今天仍用于手写识别和语音识别的递归神经网络,对后来人工智能的研究有着深远影响。

案例1-14:扫地机器人Roomba

1998年,美国公司创造了第一个宠物机器人Furby。而热衷于机器人技术的日本,2000年,本田公司发布了机器人产品ASIMO,经过十多年的升级改进,目前已经是全世界最先进的机器人之一。家用机器人一直是人们关注的重点,1996年美国公司伊莱克斯推出了第一款吸尘器机器人,也就是现在大家在使用的扫地机器人,但由于产品缺陷,很快以失败告终。2002年,美国先进的机器人技术公司iRobot面向市场推出了Roomba扫地机器人,大获成功。iRobot至今仍然是扫地机器人最好的品牌之一。

案例1-15:语音识别助理——Casper

1992年,当时在苹果公司任职的华人李开复,使用统计学的方法,设计开发了具有连续语音识别能力的助理程序——Casper,这也是20年后Siri最早的原型。Casper可以实时识别语音命令并执行计算机办公操作,类似于语音控制作word文档。

这一时期,虽然取得了一些成就,但也出现过低潮。

20世纪80年代末,包括日本第五代计算机计划在内的很多超前概念都注定失败,专家系统最初取得的成功是有限的,它无法自我学习并更新知识库和算法,维护起来越来越麻烦,成本越来越高。以至于很多企业后来都放弃陈旧的专家系统或者升级到新的信息处理方式。

3.人工智能的第三次浪潮(2006~)

人工智能的第三次浪潮始于2006年。深度学习的出现引起了广泛的关注,2006年,杰弗里辛顿出版了《Learning Multiple Layers of Representation》,奠定了后来神经网络的全新的架构,至今仍然是人工智能深度学习的核心技术。多层神经网络学习过程中的梯度消失问题被有效地抑制,网络的深层结构也能够自动提取并表征复杂的特征,避免传统方法中通过人工提取特征的问题。深度学习被应用到语音识别以及图像识别中,取得了非常好的效果。人工智能在大数据时代进入了第三次发展高潮。

案例1-16:ImageNet项目

2007年,在斯坦福任教的华裔科学家李飞飞,发起创建了ImageNet项目。为了向人工智能研究机构提供足够数量可靠的图像资料,ImageNet号召民众上传图像并标注图像内容。ImageNet目前已经包含了1400万张图片数据,超过2万个类别。自2010年开始,ImageNet每年举行大规模视觉识别挑战赛,全球开发者和研究机构都会参与贡献最好的人工智能图像识别算法进行评比。尤其是2012年,由多伦多大学在挑战赛上设计的深度卷积神经网络算法,被业内认为是深度学习革命的开始。

案例1-17:吴恩达的图像识别

华裔科学家吴恩达及其团队在2009年开始研究使用图形处理器(GPU而不是CPU)进行大规模无监督式机器学习工作,尝试让人工智能程序完全自主地识别图形中的内容。2012年,吴恩达取得了惊人的成就,向世人展示了一个超强的神经网络,它能够在自主观看数千万张图片之后,识别那些包含有小猫的图像内容。这是历史上在没有人工干预下,机器自主强化学习的里程碑式事件。

案例1-18:谷歌的无人驾驶

2009年,谷歌开始秘密测试无人驾驶汽车技术;至2014年,谷歌成为第一个在通过美国自驾车测试的公司。

案例1-19:IBM的沃森——真人抢答竞猜

2011年,在综艺竞答类节目《危险边缘》中,IBM的沃森系统与真人一起抢答竞猜,这次是人类的常识智力问答,虽然沃森的语言理解能力也闹出了一些小笑话,但凭借其强大的知识库仍然最后战胜了两位人类冠军而获胜。

世纪之交的20年中,人工智能技术与计算机软件技术深度整合,也渗透到几乎所有的产业中去发挥作用。同时,人工智能技术也越来越注重数学,注重科学,逐步走向成熟。

在21世纪第一个十年之前,对于简单的人类感知和本能,人工智能技术一直处于落后或追赶,而到2011年,在图像识别领域或常识问答比赛上,人工智能都开始表现出超过人类的水平,新的十年将会是人工智能在各个专业领域取得突破的时代。

2008以后,随着移动互联网技术、云计算技术的爆发,积累了历史上超乎想象的数据量,这为人工智能的后续发展提供了足够的素材和动力。

AI(人工智能)、Big data(大数据)、Cloud(云计算)(简称为ABC)以及正在深入展开的IoT物联网技术,共同构成了21世纪第二个十年的技术主旋律。

案例1-20:生成对抗网络(Generative Adversarial Netork, GANs)

2014年,伊恩·古德费罗提出GANs生成对抗网络算法,这是一种用于无监督学习的人工智能算法,这种算法由生成网络和评估网络构成,以左右互搏的方式提升最终效果,这种方法很快被人工智能很多技术领域采用。

案例1-21:AlphaGo

2016年和2017年,谷歌发起了两场轰动世界的围棋人机之战,其人工智能程序AlphaGo连续战胜曾经的围棋世界冠军韩国李世石,以及现任的围棋世界冠军中国的柯洁。曾经的宿敌,人类顶级围棋智慧的代表,如今已纷纷败在计算机高速的计算能力和优秀的人工智能算法之下。“AlphaGo对我来说,是上帝般的存在。”柯洁赛后如此评价,“对于AlphaGo的自我进步速度来说,人类的存在很多余。”

AlphaGo背后是谷歌收购不久的英国公司Deep Mind,专注于人工智能和深度学习技术,目前该公司的技术不仅用于围棋比赛,更主要用于谷歌的搜索引擎、广告算法以及视频、邮箱等产品。人工智能技术已经成为谷歌的重要支撑技术之一。

案例1-22:双足机器人和四足机器狗

谷歌2013年还曾收购了世界顶级机器人技术公司,波士顿动力学公司,2017年又出售给日本软银公司。波士顿动力学崛起于美国国防部的DARPA大赛,其生产的双足机器人和四足机器狗具有超强的环境适应能力和未知情况下的行动能力。

案例1-23:机器视觉和语音助手

图像识别技术正逐渐从成熟走向深入。从日常的人脸识别到照片中的各种对象识别,从手机的人脸解锁到AR空间成像技术,以及图片、视频的语义提取等等,机器视觉还有很长的路要走,也还有巨大的潜力等待挖掘。

2010年亚马逊公司就开始研发语音控制的智能音箱,2014年正式发布了产品Echo,这是一款可以通过语音控制家庭电器和提供资讯信息的音箱产品。后谷歌、苹果都推出类似产品,国内厂商如阿里、小米、百度、腾讯等也都纷纷效仿,一时间智能音箱产品遍地开花,都试图抢占用户家庭客厅的入口。

2018年,谷歌发布了语音助手的升级版演示,展示了语音助手自动电话呼叫并完成主人任务的场景。其中包含了多轮对话、语音全双工等新技术,这可能预示着新一轮自然语言处理和语义理解技术的到来。