2.2 策略型博弈
忽略了扩展型博弈的动态过程,只考虑博弈中局中人集合、每个局中人的策略集合,以及对应于每个策略组合的赢得或期望赢得,就得出博弈的策略型(strategic form)。
在练习题1-1中,局中人1有4个策略,局中人2有2个策略。把局中人1的策略排在左边一列,把局中人2的策略排在首行;局中人1的第i个策略与局中人2的第j个策略形成的策略组合导出的期望赢得向量就可以放置在一个4×2双矩阵的(i,j)位置上,如图2-3所示。
图2-3 练习题1-1中局中人的策略型博弈组合
这个博弈的求解略为复杂,我们在“2.3二人策略型博弈纳什均衡的计算方法”再继续讨论。
2.2.1 策略型博弈与纳什均衡
我们先介绍一下策略型博弈与纳什均衡的概念。
定义2-1 一个策略型博弈G=[P,S,π]由局中人集合P={1,…,i,…,n},纯策略组合S=S1×…×Si×…×Sn,以及赢得向量值函数π(s)=(π1(s),…,πi(s),…,πn(s))表示。其中,Si表示局中人i的纯策略集合,πi表示局中人i的(期望)赢得函数,s=〈s1,…,si,…,sn〉表示一个选定的纯策略组合。
定义2-2 一个策略组合叫作一个纳什均衡(Nash Equilibrium),如果每个人选定的策略刚好是其他人选定策略的最优反应,即在其他人选定的策略之下,每个人选定的策略使得他的(期望)赢得最大化。
用数学语言描述,一个策略组合s*=〈s*1,…,s*i,…,s*n〉叫作博弈的一个纳什均衡,当且仅当对每个i和每个si∈Si,都有πi(s*)≥πi(s*|si)。这里s*|si表示所有其他人继续采用s*中的策略,而局中人i则从s*i偏离到si。
【例2-1】波音(B)和空中客车(A)同时决定是否生产自己的一种新型客机。他们的决策与相应的预期利润由下面的博弈树和双矩阵表示(见图2-4)。
图2-4 波音和空中客车的决策与相应的预期利润
【分析】波音的纯策略集合是{生产,不生产},空中客车的纯策略集合是{生产,不生产}。容易验证,当波音选择“生产”时,空中客车选择“生产”(赢得为1)比选择“不生产”要好(赢得为0);反之,当空中客车选择“生产”时,波音选择“生产”(赢得为1)比选择“不生产”要好(赢得为0)。因此“生产”与“生产”互为最优回应;于是〈生产,生产〉是一个纯策略纳什均衡。
一个扩展型博弈可以是有完美记忆的(with perfect recall),即如果每个局中人在任何时刻都不会忘记以前各局中人选过的着以及自然界做过的选择。第3章我们会进一步讨论有完美记忆和没有完美记忆的扩展型博弈的区别。可以证明,有完美记忆的博弈都可以转化成策略型,而这个策略型博弈的纳什均衡就叫作原来扩展型博弈的纳什均衡。
【例2-2】我们来看下面的三人博弈(见图2-5)。
图2-5 三人博弈
【分析】当3选定L时,在左边的三矩阵中留意1和2的赢得,可发现1和2的二人博弈有两个互为最优回应:〈C,d〉,〈D,c〉。〈C,d〉不支持三人博弈的均衡,因为3会转而选择R;〈D,c〉支持三人博弈的均衡,因为3的选择L已经是〈D,c〉的最优回应。
当3选定R时,在右边的三矩阵中留意1和2的赢得,可发现1和2的二人博弈有两个互为最优回应:〈C,c〉,〈D,d〉。〈C,c〉支持三人博弈的均衡,因为R已经是3的最优回应;〈D,d〉不支持三人博弈的均衡,因为3会转而选择L。
最终我们得到两个纯策略纳什均衡:〈D,c,L〉,〈C,c,R〉。
2.2.2 混合策略均衡
一个博弈不一定有纯策略纳什均衡,而如果有,也可能不唯一。用数学语言来说,即不能保证博弈问题解的存在性和唯一性。本小节将引进混合策略(mixed strategy)纳什均衡的概念,以解决存在性问题。先来看一个例子。
【例2-3】一个女孩(G)和一个男孩(B)玩奇或偶游戏,两人可以同时伸出1根手指或2根手指:如果手指总数为奇数则女孩赢,如果手指总数为偶数则男孩赢,输者付给赢者的钱以美元计算等于手指的总数。
【分析】这个博弈的扩展型和策略型如图2-6所示。
很明显,这个博弈不存在纯策略纳什均衡。现在设想两人反复玩这个游戏。站在女孩的角度考虑问题:如果她每次都伸出1根手指,当男孩发觉后他会每次都伸出1根手指,那么她每次都输2美元;如果她每次都伸出2根手指,当男孩发觉后他会每次都伸出2根手指,那么她每次都输4美元。女孩可以采用随机策略,比如她每次随机伸出1根手指或2根手指,让概率各为0.5;这时在男孩伸出1根手指时,她每次的期望赢得是0.5美元,而男孩伸出2根手指时她每次的期望赢得是-0.5美元,这比她每次使用同样的纯策略好得多。实际上女孩有更好的随机策略:每次随机伸出1根手指或2根手指,概率各为7/12和5/12,这时无论男孩如何应对,她每次的期望赢得都是1/12。在一次博弈中,女孩的上述随机策略(0.5,0.5)和(7/12,5/12)等叫作混合策略。
图2-6 男孩和女孩博弈的扩展型和策略型
定义2-3 局中人i一个混合策略σi就是定义在纯策略集合Si上的一个概率密度函数。通常以Σi来记i的混合策略集合。当每个局中人各自选定一个混合策略时,就得到一个混合策略组合(mixed strategy profile)σ≡(σ1,…,σn)。这时每个局中人i的期望赢得πi(σ)就按照相应的概率密度函数来计算。特别是,以σi=(x,y,…)表示i的一个混合策略,其中x,y,…分别是局中人使用纯策略s1,s2等的概率,而记其他局中人使用的策略为σ-i;那么i的期望赢得是:
πi(si,σ-i)=xπi(s1,σ-i)+yπi(s2,σ-i)+…
注意,一个纯策略也可以看作一个特殊的混合策略。又从期望赢得的定义直接知道,当对手的策略给定时,某局中人采用混合策略时所得到的期望赢得不会超过他采用最优回应纯策略时得到的(期望)赢得。
当一个博弈的局中人数目有限而每人的纯策略数目有限时,称它为有限博弈。注意,包含两个以上纯策略的纯策略集合是非凸的(non-convex),而混合策略集合总是凸集合(convex set)。特别是在有限博弈中,混合策略集合都是紧致凸集[1](compact convex set)。下面将看到,混合策略集的凸性和紧致性保证了混合策略均衡的存在性。
定义2-4 在n人博弈中,以Σi表示局中人i的混合策略集合,以πi表示局中人i的期望赢得函数。那么一个混合策略组合σ*≡(σ*1,…,σ*n)∈(Σ1×…×Σn)≡Σ叫作博弈的一个混合策略纳什均衡,当且仅当对每个i和每个σi∈Σi,都有πi(σ*)≥πi(σ*|σi)。这里σ*|σi表示所有其他人继续采用σ*中的混合策略,而局中人i则从σ*i偏离到σi。
注意,一个纯策略纳什均衡也可以看作一个特殊的混合策略纳什均衡。
下面用不动点定理证明混合策略均衡的存在性。
定理2-1 每个有限的策略型博弈都至少有一个混合策略纳什均衡。
【证明】假设σ是任意一个给定的混合策略组合。考虑局中人i。因为πi(σ|τi)作为τi的函数是定义在紧致集Σi上的连续函数,所以存在βi(σ)∈Σi使得这个函数取最大值,即当其他人选用σ中的混合策略时,βi(σ)是局中人i的最优回应。注意,i的最优回应可能有多个,记Bi(σ)为i的所有这些最优回应的集合。根据期望赢得的定义知道是Σi的非空的闭的凸子集,因而是非空的紧致凸集。让i跑遍1,…,n,得到B(σ)=B1(σ)×…×Bn(σ)⊆Σ。根据Berge的最大值定理,上面定义在Σ上的把σ映射为B(σ)的对应是上半连续的,又因为影像B(σ)总是非空的紧致凸集;根据Kakutani不动点定理,这个对应存在至少一个不动点σ*∈B(σ*),容易验证σ*就是一个混合策略纳什均衡。
推论2-1 每个有完美记忆的有限扩展型博弈至少有一个混合策略纳什均衡。
【例2-3】(续)继续讨论例2-3。在上面的讨论中已知女孩使用混合策略(p,1-p)=(7/12,5/12)时,无论男孩伸出1根手指还是2根手指,他的期望赢得都是-1/12。于是,当女孩采用混合策略(7/12,5/12)时,男孩的任意一个纯策略或混合策略都是他的最优回应。另一方面,也可以计算男孩的一个混合策略(q,1-q),使得女孩无论选用什么策略她的期望赢得都相同:-2q+3(1-q)=3q-4(1-q),这时恰好也有q=7/12,而女孩的期望赢得总是1/12。也就是说,当男孩采用混合策略(7/12,5/12)时,女孩的任一个纯策略或混合策略都是她的最优回应,最终得出这个博弈的混合策略纳什均衡:〈(7/12,5/12),(7/12,5/12)〉。
2.2.3 计算混合策略均衡的程序
下面说明计算混合策略的程序,我们可以称之为“等期望赢得原则”(equalizing criterion),或称为“均等化原则”。
命题2-1 假设σ*是一个有限博弈的混合策略纳什均衡,对于每个i,以σ*-i表示i以外所有其他人的策略选择。那么,σ*i中每个以正概率使用的纯策略都是i的一个最优回应。
【证明】如果i的某个纯策略si在σ*i中以正概率p出现而πi(σ*|si)<πi(σ*),那么以i对σ*-i的最优回应纯策略取代σ*i中的si后,i的期望赢得就会增大。因此得出矛盾。
【例2-4】作为命题2-1的应用的一个说明,我们来考察石头(S)—布(P)—剪刀(Sc.)博弈。它的博弈树和策略型如图2-7所示。
图2-7 石头(S)—布(P)—剪刀(Sc.)博弈的博弈树和策略型
我们来验证这个博弈没有纯策略纳什均衡,为此只需先验证不存在局中人1选用纯策略S支持的纳什均衡。实际上,当局中人1选用S时,局中人2的最优回应为P;而当局中人2选定p时,S却不是局中人1的最优回应。因此不存在局中人1选用S的纯策略均衡。由于博弈对局中人和纯策略的对称性质,它不存在任何人选用任何纯策略所支持的纳什均衡。
我们把只混合两个纯策略的混合策略称为二元混合策略(two way mixed strategy)。现在再证石头-布-剪刀博弈不存在二元混合策略纳什均衡。先来验证包含S和P的二元混合策略不支持纳什均衡。假设局中人1选用混合S和P的二元混合策略:从上边的双矩阵可以看到,对局中人2而言,纯策略S总劣于P,[2]因此局中人2的最优回应就不会把s混合进去。但当局中人2的策略不包含s时,局中人1的纯策略P就劣于Sc,因而局中人1的最优回应就不应混合进纯策略P。因此不存在局中人1只混合S和P的二元混合策略所支持的纳什均衡。由于这个博弈对局中人和策略的对称性,不存在任何人选用任何二元混合策略所支持的纳什均衡。
根据前面两段讨论,这个博弈的纳什均衡中每个局中人采用的只能是三元混合策略(three way mixed strategy),或称完全混合策略[3](completely mixed strategy)。以(x,y,z)记局中人1的三元混合策略,根据命题2-1,它应该使局中人2使用每个纯策略时导致相等的期望赢得:
由上面的方程组容易解出x=y=z=1/3。同理可知,局中人2使用相同的混合策略(u,v,w)=(1/3,1/3,1/3)。
这个博弈唯一的纳什均衡是〈(1/3,1/3,1/3),(1/3,1/3,1/3)〉,相应的期望赢得向量为(0,0)。
2.2.4 优策略与劣策略
我们将引进策略间的“优”和“劣”概念,先来看一个双矩阵博弈[4]例子。
【例2-5】考察下面的策略型博弈,如图2-8所示。
图2-8 策略型博弈
留意局中人2的四个纯策略,比较t1与t2,不难发现无论局中人1选用s1或s2,对局中人2来说,t1导致的赢得总小于t2导致的赢得。鉴于此,我们称t2优于t1,进一步可以发现,t2实际上也优于t3和t4。
定义2-5 比较局中人i的两个纯策略si1与si2:如果对其他人选定的每个策略组合t-i都有
πi(si1,t-i)≤πi(si2,t-i),则称si1为相对劣策略(weakly dominated strategy),或称si2相对优于si1;如果对其他人选定的每个策略组合t-i都有πi(si1,t-i)<πi(si2,t-i),则称si1为劣策略(dominated strategy)或称si2优于si1;如果存在i的某个纯策略si,它相对优于i的任何其他纯策略,则称si为i的一个优策略(dominant strategy)。
从(期望)赢得最大化的目标考虑,劣策略不可能在纳什均衡中以正概率使用。所以在计算纳什均衡时,可以先除去每个局中人的劣策略,把博弈化简。但须注意,相对劣策略也可能支持纳什均衡,所以一般情况下,不要删除相对劣策略。以例2-6进行说明。
图2-9 策略型博弈
【例2-6】考察下面的策略型博弈,如图2-9所示。
【分析】局中人1的纯策略B是相对劣策略,但支持纳什均衡:〈B,b〉。
关于优策略,我们来证明以下命题。
命题2-2 在有限二人策略型博弈中,如果某局中人有优策略,则这个策略至少支持一个纯策略纳什均衡。
【证明】不妨设s是局中人1的一个优策略,设t是局中人2对s的最优回应。毫无疑问,s也是局中人1对t的最优回应,所以〈s,t〉是个纳什均衡。
作为例子,见例2-6的2×2双矩阵博弈中的策略组合〈A,a〉,A是局中人1的优策略,a是局中人2对A的最优回应。
2.2.5 囚徒困境
在一个策略型博弈中,即使每个局中人都有最优策略,这些有策略支持的纳什均衡对应的赢得向量却可以是非帕累托最优的,有时甚至可能是“最差”的赢得向量。最著名的例子就是所谓的“囚徒困境”。
【例2-7】两个小偷合伙作案时被警察逮住。他们被分别关在不同的牢房内,警察对每人说明判刑的法规:如果你检举同伙而同伙没有检举你,你将被立即释放;如果你们双方互相检举,每个人都会被关押5个月;如果你不检举同伙而同伙检举你,你将被关押10个月;如果你们都不检举对方,每个人都会被关押3个月。
图2-10 策略型博弈
【分析】这个博弈的策略型如图2-10所示。
注意:被关押时间是负的效用。从中容易看出,检举同伙对每人来说都是最优策略,结果是每个人被关押5个月;相反,如果每人都选择劣策略不检举,每个人只被关押3个月,结果比都选择优策略好。注意〈检举,检举〉是纳什均衡,而〈不检举,不检举〉非纳什均衡。
“囚徒困境”这个例子说明个人理性不一定导致集体理性,类似的例子在日常生活中是很常见的。
【例2-8】两个同学到大学餐厅进餐。餐厅有两种便餐即经济餐和豪华餐供选择,它们的价格和消费价值(效用)如表2-1所示。
表2-1 两种便餐的价格和消费价值 (单位:元)
如果两人各自付账,他们会选择哪种便餐?如果两人约定按AA制平均分担总账单,他们会如何选择?假定每人都追求剩余最大化。
图2-11 策略型博弈
【分析】如果各自付账,容易明白大家都会选经济餐。
现在考虑AA制,这时博弈的策略型如图2-11所示。
不难发现,“豪华餐”是每个人的优策略。唯一的纳什均衡就是双方都选豪华餐,结果是大家的剩余都为0。优策略导致坏结果,在这个意义下与囚徒困境相同。
[1] 有限维欧氏空间的有界闭集具有如下性质:集合中每个无限序列都有在该集合内收敛的子序列,这个性质称为序列紧致性。
[2] 意指无论局中人1使用S或P时,对局中人2而言s导致的赢得都小于p导致的赢得。
[3] 即在混合策略中每个纯策略都被以正概率随机使用。
[4] 参阅David Kreps(1990),第11章。