5.不确定条件下策略选取原则
我们进行策略选择时,存在这样的情况:虽然我们知道我们可以采取的各种备选策略,同时也知道各种策略下的结果,但是这些结果是不确定的,此时,我们应当如何进行策略选择?
先看一个关于渔夫和鱼的故事。
一个渔夫用网在海里捉住了一条小鱼。渔夫很失望。小鱼对渔夫说:“我太小了。你把我放了,等我长大了,你再抓我,不是更划算吗?”渔夫:“你的话有道理。你确实太小了。但放了你则是愚蠢的,因为放了你之后,我怎么能够抓住你呢?”渔夫没有把小鱼放掉。
渔夫面临两个决策:“不放走小鱼”、“放走小鱼”。渔夫选择“不放走小鱼”的收益是确定的,即收益为“小鱼”;而选择“放走小鱼”的策略,收益是不确定的:或者为一无所得,或者为获得“大鱼”。这里,当小鱼长大成为“大鱼”之后,渔夫抓住它的可能性或概率几乎为0。小鱼诱惑渔夫放走它,对于渔夫,放弃眼前的小利,换取未来的大利是合算的;然而如果未来的大利是不确定的,那么放弃眼前的小利则是愚蠢的。渔夫没有把小鱼放掉,他的决策是合理的。
渔夫进行策略选择时遵从的是期望效用极大化原理。
所谓期望效用极大化或者说期望收益极大化,是指人们在结果的实现不确定的情况下,应当选择给他带来的“期望效用”最大的策略。所谓期望效用就是:收益与实现该收益的可能性(概率)的乘积。在上面“渔夫与鱼”的故事中,渔夫选择“不放走小鱼”的期望收益为“小鱼”;而选择“放走小鱼”的期望收益为:“大鱼与获得大鱼的可能性的乘积”,但是渔夫捕获大鱼的可能性几乎为0,这样,渔夫选择“放走小鱼”的期望收益几乎为0。这样,渔夫应当选择“不放走小鱼”。
这就是期望效用极大化原理。
一般而言,假定策略家有n个策略,在某个策略下的有m个可能结果,这m个可能结果下的效用为{U1, U2, …, Um},可能性为:{p1, p2, …, pm},该策略下的期望效用为:。我们通过比较这n个值,选择使期望效用最大的那个策略。
当我们面临一个博弈,我们如何运用这个原理?
假设有这样一个博弈,有两个博弈参与人甲、乙,两人各有两个策略,甲的策略为(U, D),乙有策略(L, R),见表2-3。
表2-3 计算期望效用
假定这是不完全信息博弈:每个博弈参与人知道自己在各个策略组合下的收益,而不知道对方的收益。我们来看一下他们是如何决策的?
先来看甲是如何决策的。
假定甲“认为”乙采取R策略的可能性为pL=0.6,采取L的可能性为pR=0.4。这两个概率值可以通过对收到的信息进行分析得来——对之的分析不是这里的任务。
甲采取策略“U”的期望收益为:
EUU=0.6×2+0.4×3=2.4
采取策略“D”的期望收益为:
EUD=0.6×4+0.4×1=2.8
由于EUD>EUU,甲应当采取“D”的策略。
对于乙同样可以通过计算期望收益,从而决定采取何种策略。
假定乙“认为”甲采取“U”的可能性为qU=0.3,采取“D”的策略为qD=0.7。乙采取L的期望收益为:
EUL=1×0.3+4×0.7=3.1
采取R的期望收益为:
EUD=4×0.3+2×0.7=2.6
由于EUL>EUD,乙应当采取L策略。
最终的决策是甲采取“D”策略,乙采取“L”策略。实际所得为:甲为4,乙为4。
注意的是,在甲和乙的决策过程中,双方不知道对方的收益情况,自己对对方采取策略的可能性(概率)的了解也是对方所不知道的。
策略决定者利用期望效用极大化方法时,第一步,他要分析其他博弈方采取各种策略的可能性即概率值;第二步,计算自己各个策略下的期望收益;第三步,要比较这些期望效用值,并找出使期望效用最大的那个策略;第四步,采取使自己的期望收益最大的策略。
在实际的决策中,确定他人采取各个策略的概率值即可能性是准确计算的前提。只有准确地确定他人采取各个策略的可能性即概率值,才能使自己的策略选择正确。在实际中人们利用期望效用极大化来进行决策时,有时做出的决策是错误的。这并不表明期望效用极大化的原则是错的,也不是计算过程是错的,而是对他人采取的策略的可能性估计错误造成的。《三国演义》中说,司马懿看到诸葛亮大开城门,诸葛亮焚香操琴、笑容可掬,司马懿认为诸葛亮在城中有伏兵的可能性很大,于是他做出后退的策略选择。司马懿的错误是由于其概率配置所导致的。