大话机器智能:一书看透AI的底层运行逻辑
上QQ阅读APP看书,第一时间看更新

2.2.1 幸存者偏差

幸存者偏差指用于统计的数据仅来自幸存者,导致结论与实际情况存在偏差的情况。幸存者偏差源自一个真实故事:二战时期,美军统计了作战飞机的受损情况,他们发现,返航飞机各个损伤部位被击中的弹孔数不同。这些飞机发动机部位的弹孔数最少,机翼的弹孔数量最多。于是有人提出,要赶紧加固飞机机翼,因为这些部位更容易受到敌方炮火的攻击。

可是,美国哥伦比亚大学的沃德教授立即否决了这个方案。沃德教授是一位统计学专家,他应军方要求提供相关专业建议。沃德指出,应该强化的不是机翼,而是发动机。从理论上讲,飞机各部位的中弹概率应该是相同的。发动机部位的弹孔明显偏少,只能说明:那些被击中引擎的飞机大多没有返航。

这就是幸存者偏差,军方只看到幸存下来的飞机,却没有意识到它们只是一部分数据,不能反映飞机受损的真实情况。

选择正确的数据样本非常重要。我们必须保证数据考察是全面的,而非其中的一部分。在很多场合,人们下意识地会做出具有幸存者偏差的选择。比如一个粗心的研究者在统计医学数据时,为图方便选择了住院病人为研究对象,却没有意识到这种做法可能为研究结果带来偏差——只有病人才去医院。一些成功学的书中提到,比尔·盖茨、扎克伯格、乔布斯、埃里森等成功人士都在大学退学创业,似乎从大学退学更有可能获得成功。但这只是幸存者的案例,我们从未听到失败者故事,更不能说明大学退学创业就是成功的必需特质。

如果一项研究是通过已有的样本去研究过去某个规律,那就要当心了,因为它很有可能存在幸存者偏差。当我们选择已有的样本时,就只看到了幸存者,而忽略了没被统计到的样本。比如,查看公司财务报表时,就已经过滤掉了那些经营不善而破产的公司;查看老年人在医院的诊疗记录时,就默认地排除了没有活到老年的人群;统计某款手机软件的受欢迎程度,不自觉地排除了那些买不起手机或者从未安装过该手机软件的人。这样的例子比比皆是。

之所以会产生幸存者偏差,是因为很多人从一开始就搞错了统计样本,只看到经过筛选的数据,但没有意识到筛选的过程。如果只是人为地选择部分观察数据,那就无法保证结论的客观性。

要获得“全样本”数据绝非易事。由于认知局限,很多人只看见了那些能看见的现象——比如受损的飞机、就医的病人、成功的企业家、公司的报表,但忽略了没有看见的真相——未返航的飞机、健康的人、失败的创业者、破产的公司,而这些被忽略的数据同样重要,甚至更加重要。