1.3.3 概率与异常值
概率是一个比较抽象的概念,它表示某个事件会发生的可能性。
首先,概率是经验值,它由频率推导而来。比如要验证抛硬币正面朝上的概率,可以重复地抛,抛的次数越多,它的频率就越接近它的概率。历史上,为了验证频率是否可以表示某个事件发生的可能性,很多数学家都抛过硬币。比如18世纪法国数学家蒲丰亲自抛了4040次硬币,20世纪英国数学家卡尔·皮尔逊抛了24 000次,第二次世界大战(以下简称二战)时期南非数学家约翰·克里奇抛了10 000次硬币,他们把数据一一记录下来,做了详细的统计分析。只有基于数据,数学家们才有底气给出结论,这种科学精神奠定了概率论扎实的理论基础。
其次,概率揭示了不确定性中的确定,如同放射性元素固定不变的半衰期、掷骰子时每个点数出现的概率、打牌时摸到同花顺的概率,这些事件都有着相同的规律特点,即单次事件的结果不确定,但总的发生可能性又相对确定。
再次,概率避免不了“黑天鹅”数据。由于概率是从已有数据中统计出来的,所以,如果没有相关事实数据,就不要指望能通过概率反映出真相。欧洲人哪怕拥有几千年来数百万次观察得到的白天鹅数据,也无法获得更好的天鹅模型,因为数据是不完整的,其中没有包含澳大利亚的黑天鹅数据。更糟糕的是,没人知道没有这些数据。
今天被广泛运用到各行各业的人工智能,其原理就是基于统计学的。它们只能根据已有数据进行归纳、推演和预测。对于那些“黑天鹅”数据,人工智能从来就没有见过,自然对其无能为力,更有可能把它们当作异常值给忽略掉。
但在现实中,我们要警惕数据的异常值!
异常值是那些少量但与其他数据存在较大差异的数据。有时,异常值仅仅是统计错误,可以直接丢弃。但有时,异常值反映了一些特殊且重要的情况,它们不能被忽略,反而需要数据分析人员进行更深入的研究。
举例来说,美国股市的道琼斯工业指数每天价格的波动幅度不会太大,如果只是基于历史数据来看,那么通常不超过4%。但在1987年10月19日,纽约股市的道琼斯指数开盘后经过一阵波动后急剧下跌,造成了迄今为止影响面最大的一次全球性股灾,随之带来很长一段时间的全球经济衰退。当天休市时,道琼斯指数下跌了23%,相当于亏损了5000亿美元。因为这天是星期一,所以后来也被称为“黑色星期一”。很多人在股灾发生后仍然感到奇怪,因为当天根本就没有任何不利于股市的消息和新闻。对于股市研究者来说,23%就是一个异常值。
异常值出现次数少,但要特别引起关注。事实上,异常值本身就是非常有价值的研究对象。生活中常见的异常检测应用有金融反欺诈、罕见病检测、网络流量入侵检测、机器故障检测等。如果我们要开发一个异常检测程序,就要想办法让算法“重视”异常值而不是“忽略”它,其中自然会用到很多数学方法,比如提高异常值的计算权重或通过概率计算出正常数值的区间范围等。