美德的起源:人类本能与协作的进化
上QQ阅读APP看书,第一时间看更新

第13章 囚徒的困境(2)

注意最好的结果并不一定就是通过纳什均衡取得的,远非如此。纳什均衡所处的两个策略常常让游戏的一方或双方遭受痛苦,但是谁也不能采取不同策略来改善自己的境遇。而囚徒困境正是这样一场博弈。当在两个纯洁的伙伴之间玩一场这样的博弈时,那就只有一种纳什均衡存在:两个伙伴都选择背叛。

鹰与鸽

后来有个实验完全改变了这个结论。这个实验显示,30年来,从囚徒困境这场博弈中得出经验完全是错误的。选择自私终究不是一件明智的事情——只要这个游戏玩的次数不止一次。

讽刺的是,这个难题的解决措施在游戏刚发明的时候就已经在他们的面前一闪而过,只是随后就被忘得一干二净。弗勒德和德雷希尔几乎在一开始就发现了一个令人惊讶的现象。他们邀请两位同事——阿尔孟·阿尔奇安(Armen Alchian)和约翰·威廉姆斯(John Williams)将这个游戏玩100次,每次只赢取小额的奖金,结果证明实验对象出乎意料地渴望互相合作,100次实验中有60次两人都相互配合,然后拿到相互帮助带来的好处。两个人在博弈进行期间所做的笔记中都承认,自己努力向对方示好,以诱使对方做出好心的回报——直到游戏快要结束的时候,当两个人都看到只要牺牲对方的利益,就有机会给对方一记绝杀而赢得比赛,这时情况才会发生变化。而当这个游戏在同一组人中间反复进行,无休无止,那么与人为善就要取代品质恶劣而大占上风。4

这场阿尔奇安—威廉姆斯比赛早已被人遗忘,但无论何时,只要人们被要求参加这个游戏,他们都无一例外地证明想要尝试合作这种逻辑上错误的策略。这种想合作的不适当的行为被理解为实验者的不理智和一般无法加以解释的好心肠。有两位博弈论家这样写道:“很显然,这些随机选择的游戏玩家不够精明强干,没有足有的策略意识,想不到双方相互背叛的策略才是唯一合理的防御策略。”我们太迟钝了,想不明白这其中的道理。5

到了20世纪70年代早期,有个生物学家重新发现了阿尔奇安—威廉姆斯经验。他就是约翰·梅纳徳·史密斯(John Maynard Smith),是个遗传工程学家,从来也没有听说过囚徒困境这场博弈。但是他看出生物学同样可以像经济学那样利用博弈论来取得丰硕成果。他说,恰如有理性的个体应该采用那些已被博弈理论预言过的策略,以便在任何情况下都不会做出最糟糕的选择,因此自然选择也应该设定动物会做出本能反应而采用同样的策略。换句话说,决定在博弈中采用纳什均衡原则,既可以通过有意识的、理性的推导得出这样的结论,也可以通过进化的历史而获得同样的结论。通过自然选择,而不是个体,也能做出这样的决定。梅纳徳·史密斯把这个符合纳什均衡的进化本能称为“进化稳定策略”:只要没有一个动物采用不同的策略,那么所有参与博弈的动物都不会获得更糟糕的结果。

梅纳徳·史密斯的第一个例子就是尝试去解释为什么动物一般不会争斗至死。他将这场博弈设定为老鹰和鸽子之间的一场比赛。老鹰大致相当于囚徒困境中的“背叛”策略,与鸽子相遇时轻而易举就能打败鸽子,但与另一只老鹰争斗时则会身负重伤鲜血淋漓。鸽子相当于囚徒困境中的“合作”策略,当它遭遇另一只鸽子时就能大为受益,但是与老鹰相遇时则注定要九死一生。可是,如果这场游戏一次次地玩下去,鸽子那相对温柔的品质就变得越来越有用。尤其是,复仇者,即遇到老鹰时变得和老鹰一样凶猛的鸽子,被证明是一种成功的策略。我们稍后再详细讨论复仇者这个话题。

梅纳徳·史密斯的游戏遭到经济学家的忽视,因为这些游戏仅仅局限在生物学领域。但是到了20世纪70年代晚期,有件相当令人不安的事情开始发生。电子计算机开始利用它们那冰冷、无情而又充满理想的“大脑”来玩囚徒困境这场博弈,它们开始和那些愚蠢而又天真的人类做着一模一样的事情——同样是不合理地倾向于合作。警报的铃声响彻了整个数学界。1979年,一位青年政治科学家罗伯特·阿克塞尔罗德(Robert Axelrod)设定了一场比赛,用来探索合作的逻辑。他要求参赛者提交一个电脑程序,这个程序要和其他选手提交的程序进行博弈、和这个程序本身进行博弈、然后再和任意选择的一个程序进行博弈,一共进行200次。在这场浩大的比赛结束时,每个程序都会获得一定的分数。

有14位参赛者提交了复杂程度不等的电脑程序,让大家感到吃惊的是,那些“友好的”程序取得了不错的比赛结果。8个最佳程序当中没有一个发起背叛行动。此外,所有程序中最后赢得比赛的恰恰是最为友好——也是最为简单的那个程序。阿纳托尔·拉波波特(Anatol Rapoport)这个加拿大的政治科学家,对核武器对抗非常感兴趣,他以前是音乐会上的钢琴师,可能比在世的任何一个人都更加了解囚徒困境,他提交了一个叫做“以牙还牙”的电脑程序,这个程序非常简单,一开始时设定为合作,然后和它对垒的家伙采用什么策略,它就采用这个策略对付下一个对手。在实践中,“以牙还牙”是“梅纳徳史密斯复仇者”的代名词。

阿克塞尔罗德又举行了一场比赛,邀请选手设法打败“以牙还牙”程序。有62个程序参赛,然而最后胜出的那个程序竟然是——“以牙还牙”自己。它得的分数还是排在最上面。

正如阿克塞尔罗德在他所写的书里解释这个主题时所说:

“以牙还牙“程序之所以能百战百胜,原因在于它是友好相待、报复反击、仁慈宽恕和一清二楚的结合体。它的友好相待避免让自己陷入不必要的麻烦。报复反击让对方一旦尝试过背叛以后就不会再坚持使用这一策略;仁慈宽恕有助于恢复相互合作的关系,一清二楚让它容易被对方理解,因此引发长期的合作。8

阿克塞尔罗德的下一场比赛设定在一场适者生存的战争中,各种策略相互争斗,其中有一个例子自此以后就被称为“模拟生命”,并以此而知名。自然选择这个进化的驱动力,很容易就在电脑上模仿出来:各种软件生物在电脑屏幕上相互竞争空间,恰如真正的生物在现实世界里生殖繁衍并竞争生存空间。按照阿克塞尔罗德所说,那些不成功的策略慢慢被击败而靠边站,让最强有力的程序掌控电脑屏幕。这就产生了一系列令人着迷的事件。一开始,那些卑鄙无耻的策略不惜牺牲天真友善的策略而得以迅猛发展,只有像“以牙还牙”这样的复仇者能和它们并驾齐驱。但随后,慢慢地,那些卑鄙无耻的策略将容易攻击的对手一一清理干净后,遭遇到的全是和自己一样的对手,它们的数目也开始急剧萎缩,这时候“以牙还牙”开始步入前列,最后它又一次傲视群雄,在战场上独领风骚。