01 数字也会误导人
虽说利用统计数据撒谎很容易,但不用统计数据时撒谎更容易。
——或来自统计学家弗雷德里克·莫斯泰勒(Frederick Mosteller)
新冠病毒病让世界上了一堂代价高昂的统计概念速成课。人们突然发现自己必须了解什么是指数曲线、感染死亡率与病死率、假阳性与假阴性、不确定性区间。其中一些概念显然很复杂,但即使那些感觉上本该很简单的概念——比如死于病毒的人数——实际上也很难把握。在本章中,我们就来看一个貌似直截了当的数字会如何出其不意地误导我们。
一开始,我们所有人都不得不去搞清楚的一个数字就是“R值”。在2019年12月,50个人里都很可能找不出两个人知道R值是什么,然而到了2020年3月末,主流新闻报道在讨论R值时几乎不再做解释。但是由于数字会以微妙的方式出状况,出于好意地告知读者R值的变化,最终还是让人们产生了误解。
给你点提示:R是某种事物的“再生数”。它可以适用于任何会传播或繁殖的东西:网络梗图、人类、打哈欠、新技术等。在传染病流行病学中,R值代表平均有多少人会被一个患有某疾病的人感染。如果某种病的R值为5,那么平均每个被感染的患者会感染另外五个人。
当然,它没这么简单,因为它是一个平均值。假如有100个人,R值为5意味的可能是每一个人都不多不少地感染了5个人;也可能是其中99人完全没有感染任何人,但余下的一个人感染了500人;或任何介于这两种之间的情况。
它也不会一成不变。在新疾病暴发的初期,人群中没有人对病原体有免疫力,可能也不存在任何应对措施(如保持社交距离或戴口罩),那时的R值和后来的R值可能非常不同。在疾病暴发期,公共卫生政策的一个目标就是通过接种疫苗或改变行为来降低R值,因为如果R值大于1,疾病将呈指数级传播,如果小于1,疾病将逐渐消失。
但也许你会觉得,在谈论病毒时,在这些复杂的因素被纳入考量后会有一个简单的规则:R值越高越不好。因此,当英国媒体在2020年5月警告“病毒的R值或已回升”[1],原因是“养老院感染激增”[2],你大概不会对这种标题里的语气感到惊讶。
但你可能已经预料到了,事情要更复杂一些。
从2000年到2013年,美国实际工资(“实际”即经通胀调整后)的中位数(median)上涨了约1%[3]。
你可以不读这个框里的内容,但如果你不记得“中位数”和“算术平均数”(mean)的区别,请继续。
你也许还记得学校教过“算术平均数”“中位数”和“众数”(mode)。你还记得的大概是“算术平均数”:把所有数值加在一起,然后除以数值的个数所得的值。“中位数”是一个序列中间的那个数值。
它们的区别是这样的。假设现在总体(population)是7个人,其中一人年收入1英镑,一人2镑,一人3镑,以此类推,最后一人的年收入为7镑。如果你将所有这些数值相加,得到的是(1+2+3+4+5+6+7)=28。将28除以人数,即7人,算得4镑。所以平均数是4镑。
要得到中位数,你需要的不是加总这些值,而是把它们依次排列,即收入1镑的人排在最左边,接着是收入2镑的人,以此类推,收入7镑的人在最右边。然后看中间是谁。在这个例子中,中间的是收入4镑的人。所以中位数也是4镑。
现在假设收入7镑的人以10亿英镑的价格将她的科技初创公司卖给了脸书(Facebook)。突然间,你的平均数变成了(1+2+3+4+5+6+1000000000)/7=142857146镑。也就是说,即使7人中有6人的情况毫无变化,但这一组“平均下来”(至少就算术平均数来说)每个人都资产过亿。
在分布如此不均匀的情况下,统计学家通常倾向于使用中位数。使用中位数的话,我们再次将这些人从左到右排列,排在中间的人收入仍然是4镑。在数以百万计的真实人口中,中位数比算术平均数更能体现总体的情况,尤其是当算术平均数被收入分布顶端的一些超高收入者拉得过高的时候。
而众数则是“最常见的数值”。假如有17个人收入为1镑,25人收入为2镑,42人收入为3镑,那么人均众数就是3镑。当统计学家用众数描述例如身高这样的连续量时,事情会变得更复杂,不过我们先暂时不管它……
工资中位数上涨听起来是件好事。但是,将全人群分成较小的亚组来看的话,你会发现一些蹊跷。没读完高中的人,工资中位数下降了7.9%;高中毕业者的工资中位数下降了4.7%;上了大学但未取得学位的人,工资中位数下降了7.6%;获得大学学位的人,工资中位数下降了1.2%。
上完高中的人和没上完高中的人,上完大学的人和没上完大学的人,无论哪个教育水平亚组,工资中位数都下降了。而总体人群的工资中位数却上升了。
这是怎么回事?
原来,虽然拥有大学学位的人工资中位数下降了,但该亚组的人数却大大增加了。结果,中位数出现了奇怪的走向。这种现象叫“辛普森悖论”,以英国密码破译者和统计学家爱德华·H.辛普森(Edward H. Simpson)命名,他在1951年描述了这里的现象[4]。这种现象不仅会发生在中位数上,也会发生在算术平均数上,但在我们的例子中,我们暂且看中位数。
假设总体人数为11。其中3人高中辍学,年收入5英镑;3人完成了高中学业,年收入10镑;3人大学辍学,年收入15镑;2人获得了学士学位,年收入20镑。全人群的工资中位数(即在序列中间的那个人的工资:见前面的文字框)为10镑。
然后,有一年,政府大力推动更多人念完高中和大学。但与此同时,每个亚组的平均工资下降了1镑。突然间,高中辍学生变成了2人,年收入4镑;高中毕业生2人,收入9镑;大学辍学生2人,收入14镑;本科毕业生5人,收入19镑。每个亚组的中位数都下降了,但全人群的中位数从10镑升到了14镑。2000年至2013年间,现实中的美国经济就发生了类似情况,只是数字更大。
这种现象惊人地普遍。例如,美国黑人的吸烟概率高于白人;但控制教育水平这一变量后,你会发现,在每个教育水平亚组中,黑人的吸烟概率都低于白人。这是因为,受过较高教育的亚组通常较少吸烟,而黑人在这一亚组中比例较低。[5]
还有个著名的例子。1973年9月,8000名男性和4000名女性申请进入加州大学伯克利分校的研究生院。其中,男性申请者有44%被录取,而女性申请者的录取率只有35%。
但如果仔细研究这些数据,你会注意到,在这所大学的几乎每个院系中,女性申请者的录取概率都更高。报考最热门院系的女性中,82%被录取,而男性申请者中只有62%被录取。第二热门的院系录取了68%的女性申请者和65%的男性申请者。
实际情况是,女性申请的院系通常竞争更激烈。比如,有一个系收到了933份申请,其中女性有108人。该系录取了82%的女性申请者和62%的男性申请者。而与此同时,热门排行第六的系收到了714份申请,其中女性有341人。该系只录取了7%的女性申请者和6%的男性申请者。
但如果将这两个系的数据合在一起,总共就有449名女性申请者和1199名男性申请者。女性申请者中有111人被录取,录取率25%;男性有533人被录取,录取率44%。
这回又是,分别看这两个系,女性的录取概率更大;但将两个系合起来看,女性的录取概率就更小。
我们该怎样看待这样的结果?这得看情况。在美国工资的例子中,你可能会说,总体中位数提供的信息更翔实,因为美国个人工资的中位数上升了(因为完成大学和高中学业的美国人变多了);你也可能会说,无论申请哪个系,一般来说女性都比男性更有可能被录取。但你同样可以指出,对于那些没有获得高中文凭的人来说,情况变糟了;你还可以指出,女性想要申请的院系显然资源不足,因为这些院系只能录取极少的申请人。问题是,在辛普森悖论出现时,你可以使用相同的数据来讲述截然相反的故事,这取决于你想表达哪种政治观点。而诚实的做法是说明这里面有辛普森悖论。
让我们回到新冠病毒的R值。R值升高了,说明病毒正在传播给更多的人,这不是件好事。
不过,毫无疑问,实际情况要更复杂。有两场几乎不相关的“流行病”正在同时传播:疾病在养老院和医院的传播,是不同于在范围更广的社区的传播的。
因为没有发布确切数字,所以我们不知道更详细的信息。但是我们可以再做一次与前例类似的思想实验。假设养老院和一般社区里各有100人患有这种疾病。平均而言,社区中的每个病例会将疾病传播给2个人,而养老院中的每个病例会将疾病传播给3人。R值(每个疾病携带者会感染的平均人数)为2.5。
接着我们进入了封锁。感染人数下降,R值也随之下降。但是——很关键——社区的R值降幅要大过养老院。现在,养老院有90名感染者,每人平均会将疾病传播给2.9个人,而社区有10名感染者,每个感染者平均传染1个人。
现在,R值是2.71(((90×2.9)+(10×1))/100=2.71)。R值上升了!但实际上两个亚组的R值都下降了。
怎么看待这种现象才对?我们再次发现,答案不一定是显然的。也许你更关心总体的R值,因为这两处的流行病并不是真的没有关联。但答案肯定不是“R值上升就不好”这么简单。
当你试图通过观察一组人群的人均情况来了解个人或亚组时,就会出现“区群谬误”(ecological fallacy),这是一个更广义的问题,辛普森悖论就是区群谬误的一个例子。区群谬误可能比你想象得更普遍。新闻标题里的数字可能掩盖更复杂的真相,对于读者和记者来说,明白这一点很重要;要理解这些数字的意义,你可能需要进一步仔细分析。