魔鬼统计学
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一资本掷骰子

第一资本真正与众不同的地方在于,它愿意进行实验。第一资本没有满足于对消费者行为的历史分析,而是主动干预市场,进行随机化实验。

2006年,它进行了超过2.8万次实验,以检验新的产品、广告策略和合同条款。

在信封外侧印上“限时优惠”是否比“2.9%先期利率”更加有效?为了回答这个问题,第一资本将意向客户随机分成两个小组,观察哪种策略成功率最高。

这看上去太简单了。你只需要让计算机抛硬币,然后以不同方式对待抛出正面和背面的意向客户。不过,这正是历史上最强大的超级数据分析技术的核心思想。

当你依赖于历史数据时,剔除诱因要困难得多。当历史数据的挖掘者想要弄清化学疗法是否比放射疗法更有效时,他需要控制其他所有因素,比如患者属性、环境因素,以及其他所有可能影响结果的因素。不过,在大型随机研究中,你不需要控制这些因素。我们不需要考虑患者是否吸烟或者是否患过中风。相反,我们可以相信,在大型随机划分中,每种治疗类型中会出现大约相同比例的烟民。

样本大小是关键。如果我们得到足够大的样本,我们就可以相信,得到正面的小组与得到背面的小组具有相同的统计特性。如果我们接下来进行干预,以不同方式对待正面小组,我们就可以测量完全来自干预的效果。超级数据分析师称之为“处理效应”。它是数字分析领域的因果圣杯。经过随机化处理,两个小组在其他每个维度上具有相同特性。此时,我们可以相信,两个小组结果的任何差异都是由它们的不同处理方式导致的。

第一资本的随机化测试已经进行了很长时间。早在1995年,它曾进行过一项更大的实验。它生成了60万意向客户的邮寄清单,将这群人随机分成10万人的小组,为每个小组邮寄一组不同的条款,六组条款在优惠利率的总额和持续时间上存在区别。第一资本通过随机化创建了两类数据。最初通过计算机进行的硬币抛掷本身就是第一资本创建的一种数据,第一资本由此决定是否将某个意向客户分到特定小组。更重要的是,这些小组的反应形成了新的数据,而这完全是实验本身造成的。第一资本对这些具有统计相似性的小组的平均响应率进行比较,看到了不同条款的影响。通过这种大规模研究,第一资本得知,提供6个月的4.9%的优惠利率比提供12个月的7.9%的优惠利率更加有利。

多年来,学者们一直在医学和其他领域进行随机化实验。现在的不同之处在于,企业正在依赖随机实验重新制订公司政策。它们可以看到最有效的做法并立即改变公司策略。当学者发布论文称篮球运动存在放水现象时,这不会给篮球运动带来太大变化。不过,当企业将数万美元投资于随机化测试时,他们希望对结果加以利用。

其他公司也跃跃欲试。“信用补偿公司”是南非最大的微贷款公司之一,其150家分公司遍布全国。2004年,它借助随机化试验推销它的“现金贷款”。和美国的发薪日贷款类似,现金贷款是面向“贫困工人”的短期高利率贷款。这些贷款在南非是一笔很大的生意,因为该国每时每刻都有多达660万的借款者。典型的贷款金额只有1,000兰特(150美元),大约是借款人月收入的1/3。

信用补偿公司向之前的客户寄出了超过五万份的直邮宣传册。与第一资本的邮件类似,这些宣传册提供从3.25%到11.75%的随机利率。作为经济学家,我很欣慰地从信用补偿公司的实验中得知,贷款定价越低,需求就越大。

不过,价格并非事情的全部。这项测试的有趣之处在于,信用补偿公司同时对宣传册的其他部分进行了随机化处理。这家银行发现,只要在宣传信件的角落添加微笑女性的照片,男性顾客的回复率就会上升,其效果和利率降低4.5%一样大。他们还发现了一个更加重要的因素。他们在寄信一周前请营销搜索公司给客户打电话,直接问:“您在未来几个月是否会有大额支出,比如维修住宅、交学费、购买家电、举办仪式(婚礼等),或者偿还高额贷款?”接到这种电话的客户也具有更高的回复率。

想一想暗示的力量吧。只要让人们看到美好的照片,或者在非营销背景下提醒他们可能需要贷款,他们对于宣传册做出响应的可能性就会大大提高。

我们怎样知道照片或电话真的会提高响应率?和之前一样,答案在于抛硬币。平均而言,对于超过5万人的随机化处理可以确保看到照片和没有看到照片的人在其他各个维度上大致相同。所以,两个群体平均响应率的任何差异一定是由他们的处理差异造成的。

当然,随机化并不意味着每个看到照片的人与没有看到照片的人完全相同。如果我们观察收到有照片宣传册的群体的身高,我们就会看到钟形曲线分布。重要的是,我们可以在收到无照片宣传册的群体中看到同样的身高钟形曲线分布。随着样本的增大,两个群体的分布会变得越来越相似,因此我们可以将群体平均响应的任何差异归结于处理差异。

在实验室环境下,研究人员在创建数据时需要仔细控制每一项因素,以创建两个相互匹配的数据项。除了被检验的属性,它们的其他所有特性完全相同。在实验室之外,创建在所有外部维度上完全相同的数据项有时是根本不可能的。此时,企业可以通过随机化创建数据,无须创建一对对完全匹配的数据项。随机化过程可以创建相互匹配的分布。因此,超级数据分析师可以进行与对照检验等效的检验,无须费力地对几十个或者几百个潜在混淆变量进行匹配和控制。

以盈利为目的的随机化营销试验具有很明显的意义。与其降低5%利率,为什么不直接加入一张照片呢?当信用补偿公司得知研究结果时,他们准备将其付诸实施。不过,在对测试进行分析后不久,这家银行被收购了。新的银行不仅叫停了未来的测试,而且解雇了信用补偿公司的大量员工——包括最支持测试的人。讽刺的是,一些前员工将测试的结论牢记于心,在信用补偿公司的竞争对手那里找到新的工作,正在将这些结果付诸实施。