错觉:AI 如何通过数据挖掘误导我们
上QQ阅读APP看书,第一时间看更新

引言

2008年的民主党总统候选人提名,本应成为希拉里·克林顿的加冕典礼的序幕。作为知名度最高的候选人,希拉里得到了党派内部的最大支持,她同时还拥有最丰富的财政资源。

阿尔·戈尔和约翰·克里这两位大人物虽然也考虑参选,但却对击败核心人物希拉里不抱希望。其他不为人熟知的参选人的机会就更渺茫了:俄亥俄州的美国众议院议员丹尼斯·库西尼奇、新墨西哥州州长比尔·理查森,还有美国参议员约瑟夫·拜登(特拉华州)、约翰·爱德华兹(北卡罗来纳州)、克里斯·多德(康涅狄格州)、迈克·格拉韦尔(阿拉斯加州)和贝拉克·奥巴马(伊利诺伊州)等。

不过,本次提名并没有按照写好的剧本上演。黑人参议员奥巴马虽名不见经传,但却点燃了选民的热情。他筹集了足够多的资金,还说服奥普拉·温弗瑞力挺他参选。在艾奥瓦州预选中,奥巴马以八个百分点的优势击败了希拉里,由此拉开了大选序幕。

奥巴马先是赢得了民主党提名,继而又打败了共和党人约翰·麦凯恩而最终成功当选总统。究其原因,奥巴马竞选主要不是靠口才和魅力,而是靠大数据。

奥巴马竞选团队设法将每名潜在选民及其数百条个人信息录入数据库,包括年龄、性别、婚姻状况、种族、宗教、住址、职业、收入、车辆登记、房屋价值、捐赠历史、杂志订阅、休闲活动、脸书好友,以及所能找到的任何相关情况。

这些数据来自公共数据库、来往电子邮件或竞选工作者的上门询问,还有从私人数据供应商处购买的。而其最主要的来源是每周对数千名潜在选民进行的电话调查访问,通过这种方式不仅能搜集到个人信息,还可摸清每名选民投票的可能性——是否会给奥巴马投票。

从统计学角度来说,选民投票的可能性与其个人特征相关,还可以根据这些个人特征推测出其他潜在选民。奥巴马竞选所用的计算机软件能预测数据库中每个人投票以及给奥巴马投票的可能性。

这种数据驱动的模型使该竞选团队可通过电子邮件、邮寄信件、上门拜访,以及呼吁捐赠和投票的电视广告来进行微目标锁定(microtarget)。如果计算机程序预测狩猎许可证持有者反对枪支管制立法,那么对这类人的枪支管制宣传就会减少。该软件还推荐了可确保捐赠和投票的其他手段。

2008年1月,奥巴马在这关键的一个月内筹到了3 600万美元,创下了政治家筹款纪录的新高,约为希拉里所筹资金的三倍。获得提名后,奥巴马的筹款额继续上涨。2008年整个竞选活动期间,奥巴马共筹集了7.8亿美元,是对手共和党人约翰·麦凯恩所筹资金的两倍多。麦凯恩根本没有胜算,也确实没能获胜,他只得了173票,而奥巴马却获得了365票。

八年后,希拉里·克林顿再次参加总统大选,决意运用大数据为自己加持。

但这一次,大数据让她大失所望。

希拉里的竞选团队共聘请了60名数学家和统计学家,其中几位曾效力于奥巴马竞选团队。为纪念19世纪的女数学家阿达·洛芙莱斯,他们将自主开发的软件程序称作“阿达”。希拉里要是成为第一位美国女总统,就可以透露“阿达”是她的幕后功臣。故事多么精彩!

他们把“阿达”装在自己的服务器上,只有几个人拥有访问权限。有些人知道这个软件的存在,但不知道它的运作方式,而大多数人对此一无所知。

2016年9月16日,距大选还有7周,埃里克·希格尔在《科学美国人》杂志上发表了一篇题为“希拉里竞选团队如何(几乎肯定)运用大数据”[How Hillary’s Campaign Is(Almost Certainly) Using Big Data]的文章。他指出,“有证据表明,希拉里正在采用可高度精准锁定目标的技术来竞选,奥巴马就曾靠此获胜”。竞选活动开展一年半后,还有观察人士对希拉里的大数据运用继续做出种种推测。这说明“阿达”的保密工作做得非常到位。

希拉里竞选团队对“阿达”的运用守口如瓶,这可能是因为他们不想让希拉里的对手有所察觉,也可能是因为不想加深团队机械行事、谨小慎微和照本宣科的刻板印象,他们毫无伯尼·桑德斯和唐纳德·特朗普竞选团队那样的豪情壮志。

“阿达”每天都模拟运行40万次,为它认为合理的局面预测选举结果。如果佛罗里达州的投票率上升两个百分点,新墨西哥州的投票率下降一个百分点,那会怎么样?如果……会怎么样?然后对答案归纳总结,由此确定应该在哪些地区投入资源,以及投入哪些资源。

例如,70%的竞选预算用于电视广告,这些广告所花的每一分钱几乎都由“阿达”来决定,不寻求或留意资深媒体顾问的建议。“阿达”的数据库有详细的社会经济信息,包括人们在哪座城市看了哪档电视节目,然后推测出这些人给希拉里投票的可能性有多大。“阿达”运用这些数据来计算每张潜在选票的理论成本,然后决定在不同节目、不同时段和不同电视市场上投入的广告经费。

没有人真正了解“阿达”的决策经过,但可以确定这款功能强大的计算机程序能分析超乎想象的海量数据。所以,大家都信任“阿达”。它就像无所不知的女神,只听不问。

我们也不知道“阿达”是如何得出最佳策略的,但它明显是根据历史数据想当然地认为蓝领选民保准会投票支持民主党,上次大选他们确实把票投给了奥巴马,这次还会继续拥护民主党。有蓝领阶层的选票作为不可动摇的基础,希拉里只要获得少数派和自由派精英的支持,就能够轻松取胜。因此“阿达”决定,竞选团队不需要在稳赢的州花钱拉票。然而,当竞选团队意识到某些应该稳赢的州不再胜券在握时,为时已晚。

“阿达”只是个计算机程序,和所有计算机程序一样没有常识或智慧。任何人哪怕稍作关注,都会留意到希拉里在面对伯尼·桑德斯时的弱点。74岁的社会主义者伯尼·桑德斯是佛蒙特州一位鲜为人知的参议员,在决定迎战希拉里之前,他甚至还不是民主党人。如果是正常人的话,就会想要弄清楚为什么桑德斯表现那么好,但“阿达”没有这种想法。

当希拉里在密歇根州的初选被桑德斯重挫时,有竞选经验的人一眼就能看出桑德斯传递的民粹主义信息具有巨大的吸引力,因此不能理所当然地认为希拉里可以获得蓝领阶层的支持。不过“阿达”并没有注意到这一点。

希拉里对在密歇根州遭到的意外打击感到愤怒,但唯独没有把自己受到的重挫归咎于“阿达”,她仍然相信“阿达”清楚怎样做是最好的,毕竟,“阿达”是台功能强大的计算机,不受人类偏见的影响,可处理大量千兆字节的数据,可每天进行难以想象的40万次模拟,没有人能与之抗衡。因此,该竞选团队还是以数据驱动为主,在很大程度上忽视了经验丰富的政治专家和亲自与选民交谈的竞选工作人员的请求。

众多选民先后对桑德斯和特朗普表现出极大的热情,而为数不多的希拉里的支持者则表现含蓄。“阿达”并未对此加以比较。数据库中没有关于“热情”的内容可供“阿达”处理,所以它忽视了活力和激情,希拉里的数据驱动型竞选也是如此。对计算机来说,凡是不可度量的东西都不重要。

最大错特错的是,希拉里竞选团队的数据专家竟然让比尔·克林顿缄默。克林顿可能是我们见过的最优秀的竞选者了,1992年成功击败时任总统乔治·赫伯特·沃克·布什登上总统宝座时,克林顿的竞选口号为“笨蛋,问题在经济”(It’s the economy, stupid)。克林顿本能地知道选民看重什么,知道如何说服他们。

2016年竞选期间,比尔·克林顿看到了伯尼·桑德斯和唐纳德·特朗普呼吁工薪阶层选民时所激发的热情,于是建议希拉里以“笨蛋,问题在经济”作为主要竞选方针,尤其在萧条的中西部地区,包括俄亥俄州、宾夕法尼亚州、密歇根州和威斯康星州形成“蓝墙”(Blue Wall)。而“阿达”理所当然地认为,这道由“蓝墙”组成的防火墙会是希拉里战胜特朗普的基础。

“阿达”的另一个盲点是,经验丰富的政治家知道电视广告虽然可行,但最能打动乡村地区选民的方法,就是候选人安排时间出席市政厅会议和县博览会,以表示对选民的关心。而靠数据驱动的“阿达”着实没有考虑这一点。竞选活动支持率出现下降时,显然应该指派一名竞选专员深入乡村地区调查,而且要找能与农民打交道的人。这名专员还得是来自布鲁克林,而且不要出身背景太好的。

竞选期间,希拉里并没有采纳克林顿的建议(真的就连他的电话也不接了),这让克林顿恼羞成怒。他向希拉里的竞选主席约翰·波德斯塔抱怨:“那些还挂着鼻涕的小屁孩会把事情搞砸的,因为他们都把我的话当成耳边风。”

“阿达”断定,选民更担心的不是自己的就业机会,而是特朗普毫无总统风范的行为。于是,希拉里便将竞选重点放在抹黑特朗普上:“我并非无可挑剔,但特朗普更加糟糕。”

在“阿达”的建议下,希拉里的竞选活动几乎完全忽视了密歇根州和威斯康星州,尽管此前在这两个州的预选中都败给伯尼·桑德斯的经历本应为她敲响警钟。相反,希拉里把竞选的时间和资源都浪费在像亚利桑那州那样胜算不大的地区(也确实没赢),因为“阿达”判断希拉里能在这些州赢得压倒性的胜利。

竞选结束后,一名民主党民意调查者表示,“她在竞选时忽略了选举团的建议,也没有在密歇根州和威斯康星州等地投入必要的资源,这简直就是渎职”。

克林顿在希拉里败北后指责那些数据专家完全依赖计算机程序而忽略了数百万失业或担心失业的工薪阶层选民。据称,克林顿在与希拉里的一次通话中,气得将手机扔出了他在阿肯色州顶层公寓的窗户。

不知是数据不好,还是模型不当,但可以肯定的是大数据并非灵丹妙药,尤其是当大数据被藏在计算机内,而深谙现实世界的人类对计算机如何处理这些数据毫不知情的情况下。

计算机在某些方面确实表现出色。我们的生活也多亏计算机的赋能才更加丰富多彩。然而,希拉里·克林顿不是唯一过度迷信大数据的人,也肯定不会是最后一个。但愿我能说服你,不要加入他们的行列。