2.2.1 幸存者偏差_大话机器智能：一书看透AI的底层运行逻辑-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

2.2.1　幸存者偏差

幸存者偏差指用于统计的数据仅来自幸存者，导致结论与实际情况存在偏差的情况。幸存者偏差源自一个真实故事：二战时期，美军统计了作战飞机的受损情况，他们发现，返航飞机各个损伤部位被击中的弹孔数不同。这些飞机发动机部位的弹孔数最少，机翼的弹孔数量最多。于是有人提出，要赶紧加固飞机机翼，因为这些部位更容易受到敌方炮火的攻击。

可是，美国哥伦比亚大学的沃德教授立即否决了这个方案。沃德教授是一位统计学专家，他应军方要求提供相关专业建议。沃德指出，应该强化的不是机翼，而是发动机。从理论上讲，飞机各部位的中弹概率应该是相同的。发动机部位的弹孔明显偏少，只能说明：那些被击中引擎的飞机大多没有返航。

这就是幸存者偏差，军方只看到幸存下来的飞机，却没有意识到它们只是一部分数据，不能反映飞机受损的真实情况。

选择正确的数据样本非常重要。我们必须保证数据考察是全面的，而非其中的一部分。在很多场合，人们下意识地会做出具有幸存者偏差的选择。比如一个粗心的研究者在统计医学数据时，为图方便选择了住院病人为研究对象，却没有意识到这种做法可能为研究结果带来偏差——只有病人才去医院。一些成功学的书中提到，比尔·盖茨、扎克伯格、乔布斯、埃里森等成功人士都在大学退学创业，似乎从大学退学更有可能获得成功。但这只是幸存者的案例，我们从未听到失败者故事，更不能说明大学退学创业就是成功的必需特质。

如果一项研究是通过已有的样本去研究过去某个规律，那就要当心了，因为它很有可能存在幸存者偏差。当我们选择已有的样本时，就只看到了幸存者，而忽略了没被统计到的样本。比如，查看公司财务报表时，就已经过滤掉了那些经营不善而破产的公司；查看老年人在医院的诊疗记录时，就默认地排除了没有活到老年的人群；统计某款手机软件的受欢迎程度，不自觉地排除了那些买不起手机或者从未安装过该手机软件的人。这样的例子比比皆是。

之所以会产生幸存者偏差，是因为很多人从一开始就搞错了统计样本，只看到经过筛选的数据，但没有意识到筛选的过程。如果只是人为地选择部分观察数据，那就无法保证结论的客观性。

要获得“全样本”数据绝非易事。由于认知局限，很多人只看见了那些能看见的现象——比如受损的飞机、就医的病人、成功的企业家、公司的报表，但忽略了没有看见的真相——未返航的飞机、健康的人、失败的创业者、破产的公司，而这些被忽略的数据同样重要，甚至更加重要。