大话机器智能:一书看透AI的底层运行逻辑
上QQ阅读APP看书,第一时间看更新

2.2.2 选择性偏差

19世纪初期,人们认为统计就是要追求考察对象的大而全,数据越多,结果就越准。不过,想要考察大而全的总体,有时不具备操作性。于是一些统计学家提出了抽样的想法,认为只要方法得当,就算不考察总体,也能通过研究一部分有代表性的随机个体来推断出总体的特征。这些从总体中选出来的个体的集合,叫作样本,随机选择的动作叫作抽样。统计学界围绕“抽样”这件事争论了好几十年。直到20世纪30年代,抽样的科学性才被学术界逐渐认可。

抽样是一种非常好的了解大量样本空间分布情况的方法,适用于大样本。抽样的对象要尽可能分散和有代表性,这样才能体现出整个样本的分布特点。不过,抽样毕竟对研究对象做了精简,因此它很可能存在样本选择上的偏差,即选择性偏差。比如想要调研中年男性的健康程度,抽样时只选了亚洲人,这个抽样对象显然不够全面。又或者,调研时只收集了若干人的数据,研究样本过少,因此得到的结论也不具备普适性。

选择性偏差是在抽样时出现的一大问题。有时,人们为了证明自己的观点,倾向于选择特定的数据来支撑结论,从而忽略了其他证据。采用有偏差的抽样数据,几乎可以得到人们想要的任何结论。

假如在调研问卷中问这样一个情感问题:“假如爱情可以重来,你是否还会选择和他/她在一起?”结果会如何呢?我想多数会收到“不会”的答案。这并不是真相,只是那些回复的人群可能是“有偏的”。因为调查问卷是自愿回复,所以对这个话题抱有强烈负面感受的人,更有可能不厌其烦地做出回应,那些生活幸福的人也许随手就将问卷丢进了垃圾桶。又比如,去高档的购物场所进行调研,会出现选择性偏差,因为去那里消费的人相对富有;而如果去山村调研,则很可能得出完全相反的结论。

在以上的例子中,前者由被调查的人自行决定要不要回应,后者则由调查人员决定如何选取样本,这两种调查方法都会人为地影响统计结果。

抽样的结论若要很好地代表整体,需要具备两个条件:一是样本足够大,根据大数定律,这样的样本分布更接近总体;二是抽样方法要正确,确保抽样是完全随机的,它既不受调查者的选择影响,也不受被调查者的偏好影响。采用随机抽样的方法,可以一定程度上消除对样本选择的偏差。

以民意调查为例,我们知道,美国的总统选举永远是个热门话题,网络和媒体会密切关注,并跟踪报道一手资料。其中一个热门话题就是关于选举结果的预测。由于选票会涉及不同阶级、不同种族、不同利益的人和团体,所以要调研民众意向,抽样时就应该考虑兼顾各种利益团体的样本,否则很有可能出现带有偏差或者歧视的结论。

为了调查民众的看法、意见和心态,乔治·盖洛普设计了一种盖洛普民意测验。他根据年龄、性别、教育程度、职业、经济收入、宗教信仰这6个标准,在美国各州进行抽样问卷调查或电话访谈,然后对统计结果做出分析。此方法产生于20世纪30年代,今天仍会被使用,并且有着相当高的权威性。

总之,抽样要针对大样本,保证样本的随机性。如果抽样的样本很少,或由于其他原因导致了统计不充分,那么结论很可能是错误的。

数据样本偏差带来了“以偏概全”的风险,它会得出“差之毫厘,谬以千里”的错误结论。过去,人们担心小样本导致统计误差;而在大数据时代,这个问题并不会消失,反而变得更加复杂,也更难察觉。

幸存者偏差提醒我们,要考察所有类型的数据。选择性偏差提醒我们,要客观地挑选数据。前者是因为没有准确选择研究对象而导致的偏差,后者是由于没有“公平”地挑选数据导致的偏差,两者都未看清数据的全貌。

为了避免幸存者偏差,我们需要拥有全面的数据集合,而不是有意或无意地排除总体中的某个子集。为了避免选择性偏差,我们应该客观地考察所有数据,而不是仅仅考虑少量的数据,或者支持既定假设的数据。