效用函数如何预测行动?
任何决策问题都可以形式化地描述如下:
(1)有关行动(acts)的集合A,其中一个行动会被选择作为决定。
(2)有关世界状态(states of the world)的集合S。这些状态是相互独立、完全穷尽的——只有一种状态可以发生,并且这些状态中的一种必定发生。我们对这里的“世界”的定义是,它涵盖所有超出决策者控制的与该决策问题有关的东西。事件(event)就是这些状态的子集。
(3)有关后果(consequences)或结果(outcomes)的集合C。对于每一个行动和状态的配对,都有一个后果与之对应。
(4)对于众多后果的偏好排序P。这些偏好被假定为完全的、传递性的、不变的。
结果是由决策者所选择的行动和不在决策者控制范围内的其他因素共同导致的。我们把后者所指的众多因素概括为世界状态。世界状态包含对结果有影响但又超出决策者控制范围的所有因素。一般来说,行为者并不知道世界状态。相反,他们面临几种可能的世界状态。如果他们知道世界状态,那么行为者们就可以确定他们的行动的后果,并选择能产生最偏好的结果的行动。然而,由于他们不知道世界状态,决策者无法确定其行动的后果。每个行动都可能产生令人向往的结果,也可能产生不令人向往的结果,这取决于世界状态。考虑到这一点,行为者必须衡量哪种行动最有可能产生最好的最终结果。这种衡量要求对每种状态发生的可能性有一定判断,还要求对行为者的偏好有比仅仅是对结果的序数偏好更细致的度量。
这一更细致的度量就是冯·诺伊曼摩根斯顿效用函数(Von Neu-mann-Morgenstern utility function)。这样的效用函数根据行为者为获得所偏好的结果而承担风险的意愿来测量结果对行为者的吸引力。在各种状态上的概率分布体现了行为者对每种状态的可能性的评估。我们计算一个行动的期望效用的方法是:把每种状态发生的概率乘以该状态和行动所带来的结果的效用,然后把针对所有可能状态计算所得的成绩相加。具有最高的期望效用的可以采取的行动就是选择。在数学上,我们可以表示如下:
并选择A以便使EU(A)最大化
其中EU是期望效用,A是可以采取的行动,p是概率,S是一种状态,u是效用,C(S,A)是当状态是S而行动是A时所形成的后果。对每种行动的评价是根据它可能产生的后果的可能性以及这些结果的吸引力。在可采取的行动的集合里能带来最高期望效用的行动就是选择。
一个简单的例子也许有助于我们阐明这些思想。4在辛辛苦苦学习了决策论之后,你需要休息一下让自己缓过劲来。你走到饮料自动销售机器旁,该机器能卖经典可乐、健怡可乐、雪碧(全部都是可口可乐公司的注册品牌)。你需要咖啡因和糖来恢复你的敏锐感觉。如果你不能同时拥有咖啡因和糖,那么你偏好咖啡因胜过糖。你的序数偏好是经典可乐P健怡可乐P雪碧。你把零钱投进机器,正当你准备按经典可乐的按钮时,你的一位朋友经过,他说:“你知道吗?那个看管这个机器的家伙把经典可乐和雪碧混到一起了。他刚才把这两种饮料的箱子都打翻在地,两个箱子都破了,各种罐装的经典可乐和雪碧撒了一地。他赶时间,也不看每一罐装的是什么就把这两种饮料随便塞到经典可乐和雪碧的槽里。玛丽按了经典可乐的按钮却拿到一罐雪碧。”现在你的选择就不是那么简单了。按经典可乐的按钮得到的可能是一罐雪碧。你知道按健怡可乐的按钮会拿到一罐健怡可乐,所以你要在确定的一罐健怡可乐和要么一罐经典可乐要么一罐雪碧这样的运气之间作出选择。
结果就是在你按了按钮后你所得到的饮料,可能是经典可乐、健怡可乐或雪碧。在这里,能够采取的行动就是机器上的三个按钮。5你选择一个行动,而你的选择和不在你的控制之内的其他因素这两者的组合产生了结果。这些其他因素被称为世界状态。在这里,世界状态就是在每一道槽里接下来会是什么饮料。经典可乐的槽里放的是经典可乐,健怡可乐的槽里放的是健怡可乐,雪碧的槽里放的是经典可乐,这样的情况只是一种可能的世界状态。
要决定按哪个按钮,你需要判断每种世界状态有多大的可能性,还需要判断,与确定得到一罐健怡可乐相比,你愿意接受多大的要得到一罐经典可乐却得到一罐雪碧这样的风险。前者可以概括为在各种状态上的概率分布,后者则体现在对于结果的效用函数。我们同时运用这两者来计算对于每种行动的期望效用。具有最高的期望效用的行动就是你的最终选择。以下效用函数和概率分布是我们的假定,其中各种状态所表示的是在经典可乐槽里的饮料,在健怡可乐槽里的饮料,以及在雪碧槽里的饮料,并且所有其他可能的状态的概率均为0:
u(经典可乐)=1 u(健怡可乐)=0.4 u(雪碧)=0
p(经典可乐,健怡可乐,经典可乐)=0.15
p(经典可乐,健怡可乐,雪碧)=0.3
p(雪碧,健怡可乐,经典可乐)=0.2
p(雪碧,健怡可乐,雪碧)=0.35
我们计算每种行动的期望效用。如果你按了经典可乐的按钮,那么,若前面两种状态中的任意一种是世界状态则你会得到一罐经典可乐,若后面两种状态中的任意一种是世界状态则你会得到一罐雪碧。于是,如果你按了经典可乐的按钮,那么得到一罐经典可乐的概率就是前面两种状态的概率之和,即p(经典可乐,健怡可乐,经典可乐)+p(经典可乐,健怡可乐,雪碧)=0.15+0.3=0.45,而得到一罐雪碧的概率就是后面两种状态的概率之和,即p(雪碧,健怡可乐,经典可乐)+p(雪碧,健怡可乐,雪碧)=0.2+0.35=0.55。如果你按了经典可乐的按钮,那么得到一罐健怡可乐的概率是0,因为当你按经典可乐的按钮时没有任何一种状态会产生健怡可乐。这样的概率是条件概率(conditional probabilities),意思是给定你采取一个行动时会出现某种结果的可能性。条件概率被记作p(结果|行动)。按经典可乐按钮的期望效用的计算方法是:每种结果的效用乘以如果你按经典可乐按钮的话该结果会发生的条件概率,再把得到的乘积加总。这样的计算可以表示如下:
EU(按经典可乐按钮)=p(经典可乐|按经典可乐)u(经典可乐)+p(健怡可乐|按经典可乐)u(健怡可乐)+p(雪碧|按经典可乐)u(雪碧)
=(0.45)(1)+(0)(0.4)+(0.55)(0)=0.45。
同样,按健怡可乐按钮的期望效用是0.4,而按雪碧按钮的期望效用是0.35。你的选择是具有最高期望效用的行动,在本案例中就是按经典可乐的按钮。