ChatGPT通过“图灵测试”了吗
2015年3月,当语言学家诺姆·乔姆斯基(Noam Chomsky)被问及“机器能思考吗”时,乔姆斯基则以反问作答:“潜艇会游泳吗?”
时至今日,仍有人在迂阔地争论ChatGPT有没有通过图灵测试。
先说结论:根据图灵的提案,ChatGPT已经基本通过了图灵测试,它唯一不像人的地方,就是反应太快了。
“图灵测试”是“人工智能之父”艾伦·图灵(Alan Turing)提出的一种测试机器是否具有智能的方法。
1912年,图灵出生于英国伦敦,自幼就展现出杰出的智力天赋。图灵19岁考进剑桥大学。 24岁时,他又提出了著名的“图灵机”思想实验,为现代计算机的逻辑工作方式奠定了基础。
1950年,那时人工智能的概念还没有形成,38岁的艾伦·图灵在Mind杂志上发表了一篇名为《计算机器与智能》的论文,探讨了让机器具备与人类一样的智能的可能性。论文在开篇就抛出了一个时代之问:“机器能思考吗?”
在这篇论文中,图灵建议先搁置智能是如何生成的问题,聚焦于智能所呈现的结果。
图灵解释道,因为其他生物的内在生命仍不可知,所以我们衡量智力的唯一方法就是观察外部行为。由于机器是否具有“智能”不易衡量,图灵提出了一个测试方案:通过一个“模仿游戏”测试机器是否具有智能,这被后世称为“图灵测试”。
具体内容就是让问询者与被测试者(关在遥远的屋子里的一个人和一台计算机器)在隔开的情况下,问询者通过一些装置(如电传设备,或者键盘)向被测试者随意提问。进行多次测试后,如果机器让每个问询者平均做出超过30%的误判,那么这台机器就通过了测试,并被认为具有了智能。
图1-1 “图灵测试”示意图
问询者(代号C)使用被测试对象都能理解的语言,去询问两个他无法看见的被测试对象任意一串问题,被测试对象分别为一个具有正常思维的人(代号A)和一台计算机器(代号B)。如果经过若干次询问后,C不能分辨A与B到底哪个是人,哪个是机器,则此机器(代号B)就可以贴上“拥有智能”的标签,也就是通过了图灵测试。
图灵在论文里还回答了对这个假说常见的一些质疑,并预言到2000年,人类应该可以用10GB的计算机器,制造出可以在5分钟的问答中骗过30%成年人的人工智能。
“图灵测试”是人工智能领域的第一个严肃的提案,激发了当时一些研究者对它的关注和思考。
在这一过程中,图灵测试着重于表现,而非过程。中国有句带有“行为主义”色彩的老话:“论迹不论心,论心世上少完人。”图灵的这个提案,通俗地说就是“论迹不论心,论心天下无智能”。
图灵测试的目的,就是避免永远不会有结果的哲学辩论,避免讨论智力的本质。图灵测试将人工智能从不着边际的“哲幻”拉到了可测量的现实,变成了后续人工智能发展的评估标准。
GPT的全称是Generative Pre-trained Transformer,直译为生成式预训练生成器。ChatGPT就是GPT的聊天机器人程序。ChatGPT这样的内容生成器,当然称得上是人工智能,并不是因为ChatGPT的模型细节达到了什么标准,而是因为它所生成的信息,非常像是人类写出来的信息。唯一不像人类的地方,就是其生成速度太快了。
当然,ChatGPT至今存在“幻觉”问题,甚至GPT-4版本依然有一些回答就像喝醉的人在胡说八道。但是,一个正常的人就能保证永远不会有胡诌的时候吗?幻觉、偏差和失误,不正是人类大脑无法避免的思维现象吗?就像尤瓦尔·赫拉利在《人类简史》里所讲的那样,虚构和幻想的能力,才是属于“智人”特有的超能力。
从这个意义上讲,对于一台模仿人脑的机器而言, “幻觉”问题,与其说是一个缺点,毋宁说是一个“特点”。按照杨立昆的观点,除非从根本架构上彻底改造GPT模型,否则“幻觉”问题将会是永远存在的。
图灵测试并不要求机器永远不会犯错,也不要求机器做到和人类完全无法区分的地步,而是要判断机器的表现是不是像人。
马文·明斯基(Marvin Minsky)曾经给人工智能下过这样的定义:“人工智能,就是一门使机器达到人类智能水平从而完成人类工作的科学。”
图灵和马文·明斯基等人对人工智能的评估,自此形成基准,将人们的争议焦点从智能的定义转移到“行为”,即以那些看似有智能的行为作为评估的依据,而不再将“智能”从哲学、认知与神经科学层面去评估。以ChatGPT来说,它已经基本能够通过图灵测试。ChatGPT已经可以像人一样做各种各样的事情,甚至在某些领域可以展现出不逊于人类的智能。媒体工作者不吝用“惊艳”“震撼”来形容自己的心情。但是,人工智能真正骇人之处,其实并不是这种表面的热闹,而是它甚至可以生成图灵测试也无法测量的智能。