精益数据分析(珍藏版)
上QQ阅读APP看书,第一时间看更新

在加拿大,冬季轮胎的使用率和交通事故的减少量是一对相关数据。人们会在寒冷的季节换上更软的冬季轮胎,而夏天是交通事故的高发季。这是否意味着我们应该要求加拿大的司机一年四季都装着冬季轮胎?当然不是,因为软轮胎在夏天的刹车性能很差,会导致事故量增加。

实际上,很有可能有一些其他的因素导致了夏天事故率的上升,如开车时间的延长和暑假的来临。仅仅关注单一的关联而不追溯因果关系会导致错误的决定。比如,冰激凌的消费量和意外溺亡人数具有相关性,难道这意味着我们应该禁止销售冰激凌来避免意外溺亡吗?或者以冰激凌消费量预测殡仪馆的股价走势?当然不是——冰激凌消费量和意外溺死率的升高都是因为夏天来了。

在两个数据指标之间发现相关性不是一件坏事,发现相关性可以帮助你预测未来,而发现因果关系意味着你可以改变未来。通常,因果关系并不是简单的一对一关系,很多事情都是多因素共同作用的结果。在加拿大夏天交通事故增加的例子中,我们需要考虑酒精消费量、新手司机数量、白昼变长和暑假等因素。所以,现实中很难找到 100% 的因果关系。你会掌握一些独立的数据指标(分析多个独立的数据指标作为自变量),其中每个都能在一定程度上“解释”某个依存的数据指标(因变量)。但是,即便只发现部分因果关系也是很有价值的。

你可以通过如下方法来证明一个因果关系:找到一个相关性,进行控制变量试验并测量因变量的变化。这是一项很有挑战性的工作,因为没有两个客户是相同的,所以你很难在试验中控制输入的一致性。在现实中,想要让有统计学意义的一大批被试客户都满足试验的良好控制条件几乎是不可能的。

如果拥有一个足够大的用户样本,你甚至可以不用太考虑变量控制就能完成一个很可靠的测试,因为其他自变量对因变量的影响最终会被样本数量拉平,这就是为什么谷歌有能力测试超链接颜色等细微的影响因素,为什么微软能够很明确地知道网页加载速度快慢对搜索量的影响。但是对于大多数创业公司而言,你需要尽量简化你的测试,测试内容不要太多,并比较这些测试为你的生意带来的改变。

我们之后将看到一些不一样的测试和细分种类,不过现阶段你只需要知道:相关性很好,因果性更佳。有时,你只能找到一些相关性,但你永不应停止寻找因果性。