20几岁学点博弈论(每天学一点时尚阅读书系列)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第7章 重复博弈:背叛者总是“输家”(1)

人们都明白“一报还一报”的道理,所以在重复博弈中,同样是出于利己的心理,人们通常会选择最优的策略,而这显然也是对双方都有利的策略。许多耳熟能详的俗语其实也是一种潜在的游戏规则,比如“以牙还牙”“人不犯我,我不犯人”等,都揭示了人们行事的准则。

“鱼死网破”的婚姻或者分道扬镳的一夜情,都属于一次性或有次数的博弈行为,其中“背叛”的情况是常见的,因为当人们一旦知道博弈即将结束或者是最后一次博弈的时候,他就可能不再害怕以后对方对他的报复,从而会在博弈时做出背叛的选择,就像商家的一次买卖和一夜情一样,总有因背叛而获利的一方,而重复博弈则不会出现这种情况。

人人都明白“一报还一报”的道理

艾克斯罗德在进行合作研究之前,设立了两个前提:其一,每位合作者都是自私的;其二,没有什么可以干预个人决定,也就是说,参与者能完全按照自己利益最大化的想法进行决策。

于是在这两个前提下,合作会研究3个问题:

(1)我为什么要合作?

(2)在什么样的情况下该合作,在什么样的情况不该合作?

(3)怎样让别人与自己合作?

实际生活中,各个领域都会涉及合作的问题,其实合作也是一种博弈,至于最后合作双方的利益如何分配,就要看其是属于单次博弈或者有限次博弈还是重复博弈,这决定着合作的结果。拿两个国家之间的关税报复来说,对别的国家商品提高关税有利于保护本国的经济,可是国家之间互提关税会造成产品价格的升高,于是竞争力就丧失了,这就损害了国际贸易之间互补的优势,也可以说两国都陷入了“囚徒困境”中,但是,这种困境在现实社会中虽时有发生,却不会长久。可以从下面的解释中找到答案。

甲和乙各表示一个人,选择A代表合作,选择B代表不合作。如果甲乙双方都选择A,则两人各得3分;假如一方选A,一方选B,则选A者得0分,选B者得5分;假如甲乙都选B,双方各得1分。

在这种情况下,因为“囚徒困境”在起作用,双方都会选择B。但是如果双方都知道这种博弈要进行很多次,而且次数不明,两个人都会意识到在持续地采取合作态度时,双方都将持续各得3分,假如双方一直不肯合作,每个人每次都只能得1分。因此,双方就产生了合作的动机,因为双方都知道只要自己一次不合作,下一次对方也不愿意与自己合作了,或者在下次合作中将背叛或报复自己,而这将使得自己的利益减少,所以合作当然是上策。

艾克斯罗德曾邀请多人来参加一个实验,其得分规则和上面“囚徒困境”中提到的矩阵一样,而且人们都不知道游戏什么时候结束。艾克斯罗德要求每位参与的人把追求得分最多的方法编入计算机程序,之后用单循环赛的方法使参赛程序两两博弈,以得出哪种策略得分最多。

游戏第一轮有14个程序参与,再加上艾克斯罗德的一个随机程序,即以1/2的概率选取合作或者不合作,在程序运转了300次后,得分最高的程序是加拿大学者罗伯布写的“一报还一报”。这个程序的特点是:在第一次对弈时采取合作的策略;其后的每一步都跟随对方前一步的策略,也就是说你上次没合作,这次我也不会合作;你上次合作了,那么这次我也将选择合作。

艾克斯罗德在得分排在前面的程序中还发现了几个特点:人们不愿意首先表示背叛;如果被对方背叛了,下次一定会报复,不能总和他们合作;不能对方背叛一次,你就没完没了地背叛,如果对方改为合作,自己也会宽容地与之合作。

为了进一步验证这个结果,艾克斯罗德又邀请更多人做这个游戏,并把上一次的游戏结果告诉大家。第二次他征集到了62个程序,然后加上他的随机程序,又进行了一次演示,其结果仍然和上次相同。

显然,人们都明白“一报还一报”的道理,所以在重复博弈中,同样是出于利己的心理,人们通常会选择最优的策略,而这显然也是对双方都有利的策略。

现实生活中也有很多重复博弈的例子。

成都的一家报摊就体现了重复博弈所产生的最优策略。

如果报摊也像无人售票车一样实行自动投币的方法,会不会有人拿走报纸不给钱?

在成都的一个报架上,写着“请给5角买报”的字样,在报纸旁边摆着一个放钱的口袋,而且这个无人售报摊居然创造了3年从没少过钱的诚信奇迹。

诚然,那些买报者都是理性的人,但并不是无欲无求的天使,也有利己心理,而且难保在生活的其他方面做些不够诚信的事。可是这个无人卖报摊3年没少过钱的事情,也值得人们从中悟出一些道理。

其实,这种诚信并不是一两天就能形成的,在无人售报摊开业的第一天,里面的钱比实际卖出去的报纸应得的收入少2元钱,也就是说有4份报纸没有付钱就被拿走了,也许拿走这4份报的人中就有不诚信的机会主义者。

交易的双方在第一天内就进行了一次关于诚信问题的简单博弈,在这次博弈里,讲诚信的卖报人利益上受到了一些损失,在这种情况下,他完全有可能不顾其他买报人方便与否,在第二天取消无人卖报摊,这样一来,交易的双方其实都陷入了诚信的“囚徒困境”中,这对双方来说都比较费事,也就是对交易双方都不利。

但卖报者并没有取消而是坚持下来,结果在第二天,钱袋里就多出2元钱。

当然,也不能排除有人没有零钱的可能,但毕竟对买报人和卖报人来说,都是没有损失的。后来,这个无人售报摊居然坚持了3年都没少过一分钱。

从博弈的角度看,头一次那种“每位参与博弈的人都只关心个人利益和一次性支付的简单博弈”已经慢慢变成“连续、重复进行的博弈”,在连续重复博弈的过程里,拿报纸却不付钱的人一定会担心卖报人或者其他人对其采取暗中观察、抓住自己示众等报复行为,所以,拿报纸的人也会理性地克服自己的投机心理,选择和卖报者诚信合作,于是,就出现了双方都讲诚信的博弈局面。

无人售报摊3年不少一分钱是完全符合博弈原理的,它没有一点不妥的地方,也不和其他博弈理论相矛盾,依然是理性的人,但是把单次博弈替换成重复博弈,其效果就会完全不同。

合作约束——重复博弈会产生好结果

假如仅是单次的博弈行为,双方合作的几率非常小,而无限次的博弈则可能产生与之相反的效果,博弈的双方很可能会全力合作,以创造最佳的收益。

很多商业行为都可以诠释这种现象。比如商家准备做一次性买卖时,觉得不可能和对方再有合作的机会,就会尽力谋取高利而且很可能带有一些欺骗性质,而商家对于“回头客”的态度往往是通过薄利行为使得双方的合作关系能够继续下去。

多次重复的博弈之所以和单次发生的博弈结果不同,是因为在重复的博弈中,每个人都有机会去报复对方的背叛行为,因为人们欺骗的动机可能会受到惩罚和威胁,所以参与者很可能出现“利他”心理,从而导致一个比较好的合作结果,“纳什均衡”也就慢慢趋向于“帕累托最优”。

第一次博弈其实和一次性“囚徒困境”的博弈差不多,就拿前一章的“囚徒困境”来说,博弈的双方都明白这是唯一的一次博弈,所以双方都明白即使自己不招供,对方也难免招供,这对自己是没有好处的,于是,作为一个理性的人,双方都会坦白。甚至可以说只要是有限次数的重复博弈,他们的思路就都是相同的,商业中的价格往往是这样,众多商家很难形成统一战线,他们每次价格博弈的纳什均衡就是全体降价。

可是在人们生活中进行的也有很多是重复博弈,即有的博弈是没有次数限定的。

通过“囚徒困境”的基本博弈结构,可以很明白地分析“囚徒困境”:

有两位参与者和一个庄家,参与者都拿着一式两张的卡片,卡片背面印着“背叛”“合作”。参与者都把一张卡片面朝下拿到庄家面前。这样两位参与者是不可能知道对方选择的。之后,庄家翻开参与者的卡片,根据下面的规则判定得失:

一人合作,一人背叛:合作者不计分(受骗支付),背叛者得5分(背叛诱惑)。

两个人都选择合作:两个人都得3分(合作报酬)。

两个人都背叛:两个人都得1分(背叛惩罚)。

一般形式的囚徒困境支付矩阵为:

合作背叛合作3,30,5背叛5,01,1以“胜-负”术语表示为:

背叛:大负负-负=大胜

合作:胜大负-大胜=胜

现在我们用“T、R、P、S”的符号来表示合作和背叛:

背叛:T,SP,P

合作:R,RS,T

简单博弈获得的分数可以得出下面的结论:

T:单独背叛可以成功获得5分。

R:同时合作可以获得3分。

P:共同背叛可以获得1分。

S:被单独背叛不得分。

以个人选择得分而言,可得出以下公式:T>;R>;P>;S,也就是5>;3>;1>;0;但是以整体得分来说,会得出下面的不等式:2R>;2P或2R>;T+S,也就是2×3>;2×1或2×3>;5+0,双方合作会得6分,比起互相背叛所得的2分和单独背叛得到的5分,合作的结果显然比背叛要高。而重复博弈的人因为双方会不停合作,所以这将会让参与者从关注T>;R>;P>;S到关注2R>;T+S,这将让参与者脱离困境。这个理论是道格拉斯·霍夫施塔特提出的。

严格的“囚徒困境”有一个前提条件,即博弈双方不能进行合作,所以他们不会制订出有约束力的协议,其“纳什均衡”点并不会改变。可在现实生活中,在很多情况下,人们是愿意进行合作的,比如组织国防、兴修水利、创建企业,这些都是由合作产生的,哲学家卢梭曾写了一本叫做《社会契约论》的书,他认为契约是整个社会存在的前提之一。

其实,恋爱关系或者婚姻也是一种合作,也可以说它们是一种重复性质的博弈。男女双方在交往的时候,随时都在进行博弈,因为在交往中,他们随时都可能因为某件事即“背叛”事件分手,因为背叛者获得的利益是比较大的。可是从博弈论的角度看,婚姻就好像是男女双方签订的一种协议,它对男女双方都有一定的约束力,一旦一方背叛了婚姻,就会面临社会舆论的谴责和家庭的压力,还有财产的纠纷,这对“背叛”者来说往往是不划算的,从很多富豪、大亨都保留“元配”的位置可以看出这点。

其中也不乏“鱼死网破”的婚姻或分道扬镳的一夜情,这些都属于一次性或有次数的博弈行为,其中“背叛”的情况是常见的,因为当人们一旦知道博弈将要结束,或者将要实行的是最后一次博弈的时候,他就可能不再害怕以后对方对他的报复,从而会在博弈时做出背叛的选择,就像商家的一次买卖和一夜情一样,总有因背叛而获利的一方。这种情况就另当别论了。

重复博弈和一般的动态博弈是不一样的。在多轮动态博弈里,参与的人可以了解到博弈的每一步,也可以推测出另外一些参与者会在这种情况下做出什么选择,采取什么行动,而重复博弈的双方则无法了解到博弈中的每个步骤和另一方的策略选择,因为生活的变化是不可预知的。即使是“囚徒困境”,一旦它的性质转变为重复博弈,其情况也会发生很大的变化,博弈的结局也就是“纳什均衡”点可能会产生颠覆性的改变。

国外的黑手党组织非常严谨,对于背叛者的惩罚也是极其残忍的。如果一个黑手党成员告发其他黑手党成员,就会被组织谋杀甚至诛杀全家。一旦他们不幸入狱,也很难招出同党,因为他们宁愿被判无期徒刑,也不愿在出狱后被同伙杀掉,甚至让全家人受连累。

由此可见,在重复的博弈中,签订合作协议对双方具有很强的约束力,这个合作契约的建立一定要牵制对方利益,假如不是这样,即使在合作协议签订之后,博弈双方都有可能产生“作弊”动机。