1.1.2 因果与相关
从恩格斯的系统论观点出发,系统之所以成为“系统”,关键是组成系统的各个部分之间存在着相互联系与相互作用,当然,相互作用也可理解为联系的一种。联系可以是一种宽泛的概念,例如,男女之间通过法律结为夫妻联系,孩子与父母之间通过血缘形成父(母)子联系,邻居之间通过居住在同一栋楼而形成邻里联系等。在这里我们探讨的系统中的联系是指系统中两个变量之间存在着联动关系,即如果对象A的变化会引起对象B的变化,我们称对象A与对象B之间存在着联系,或者称存在着相关性。
好奇的天性总驱使人们在遇到事情发生的时候常常会去问为什么。是什么因导致了这样的果,即系统中的因果联系。人们从孩提时代起,就总是不自觉地去总结身边所发生事物的因果模型,并将其作为指导行为决策的依据,例如,我们常常会说,勤奋学习才能取得好的成绩,努力工作才会取得好的业绩。科学研究的核心目标也是不断发现外部世界中存在的因果模型,如牛顿三定律,就是发现了外力与物体运动状态改变之间的因果关系,并建立了确定的数学模型,即F=ma。
这里需要厘清一个重要的概念,那就是相关性不等于因果性。相关性体现了两个事物之间相互关联的程度,可分为正相关性与负相关性。我们通过大数据分析中的数据关联度量分析,采用“相关分析”与“回归分析”的方法手段,便能判断出数据之间的相关性,但我们无法简单地判断数据之间的因果性。在数据的相关性方面有一个非常经典的案例,那就是美国沃尔玛超市的啤酒和尿布的启示。美国沃尔玛超市管理人员在分析销售数据时发现,在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种现象经常出现在年轻的父亲身上。于是沃尔玛开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物,从而在获得很好的商品销售收入的同时也收获了年轻父亲顾客的满意度。在这里沃尔玛超市利用的就是通过数据分析获得的不同对象之间的相关性,但啤酒与尿布之间并不存在必然的因果性,如果是年轻妈妈来买尿布,显然并不会同时购买啤酒。我们对系统中的联系、相关性与因果性的概念内涵进行区分,三者的关系如图1-3所示,联系是一个更为宽泛的概念,联系包含相关性联系,而因果性是一种更为确定的相关性,因果性包含于相关性,但不等同于相关性。
图1-3 系统内的联系、相关性与因果性的关系图
在分析相关性与因果性的概念时还有两个重要的概念也需要了解,那就是统计概率相关性和条件概率相关性。我们通过一个例子来介绍统计概率相关性。在新冠疫情流行时疫苗的重要性尤为凸显,但疫苗有极低的概率会导致不良反应,甚至会危及生命,如西方曾发生过多起阿斯利康疫苗引起致命血栓的事件,会给人造成疫苗不安全的错觉,也就是打疫苗和防控新冠疫情之间的相关性是否有效。我们可以通过统计数据来分析。我们知道某款新冠疫苗接种的不良反应率为每10万人中有57人,该疫苗预防重症的有效性为90%。另据世卫组织统计,新冠的重症率为 1.9%。假设有 90%的人接种了该疫苗。就以10万人为例,我们将不良反应人员归为重症人员,这样不良反应造成的重症人员为57人,有90000人接种了疫苗,未接种人数为10000人。其中接种的90000人中有9000人的防护失效,按照重症率计算,有重症人数为9000×1.9%=171人;未接种人数中有重症人数为10000×1.9%=190人;在10万人中共有重症人数为57+171+190=418人。如果不接种疫苗,10万人按照重症比例,100000×1.9%=1900人,这样可以计算出通过接种疫苗每10万人中减少的重症人数为1482人,即减少了78%。我们通过统计数据分析,证明了接种疫苗与预防重症病例之间的因果关系,但我们尝试建立因果关系模型时,还需要考虑二者之间的统计概率值。
在考虑因果性的还有一个重要的概念需要理解,那就是贝叶斯概率,即条件概率。在因果关系的世界里,往往不是一对一的,造成一个时间发生的原因可能存在多个,在前面已发生过的条件下,后续事件发生的概率计算就不是一种独立事件计算模式。举一个简单的例子,在一个箱子里放3个红球与3个白球,实验人员从箱子里依次摸2个球,如果摸出球后不放回,且第一次摸中了一个红球,求第二次摸球摸中红球的概率。在这里,实验人员第二次摸球显然不能算作独立事件,需要考虑第一次摸球对第二次摸球的影响,即第一次摸球条件成立下的第二次摸球的概率。对于这种问题做出重大贡献的是18世纪英国的数学家贝叶斯,他提出了条件概率计算公式,即P(B|A)=P(AB)/P(A)。