回归方程帮你找到灵魂伴侣
有一波新的预测潮流,它对群体智慧的利用超越了有意识的偏好。eHarmony的兴起意味着人们通过超级数据分析发现了新的群体智慧。传统约会服务根据人们清晰表述的有意识偏好对他们进行拉拢和配对,eHarmony则试图弄清你是哪种人,然后根据数据将你和最适合你的人相匹配。eHarmony考察巨大的信息数据库,以查看哪些性格类型的人可以成为幸福的夫妻。
eHarmony创始人和推动者尼尔·克拉克·沃伦(Neil Clark Warren)在20世纪90年代后期研究了超过5000名已婚人士。他申请了一项兼容预测统计模型专利,该模型基于与性情、社交风格、认知模式和交往技能相关的29个不同变量。
eHarmony的策略依赖于超级数据分析技术之母——回归。回归是一种统计程序,它根据原始历史数据估计各种因素对于单一相关变量的影响。在eHarmony的案例中,相关变量是一对夫妇可能具有的兼容性,各种因素则是夫妇每个人的29个情绪、社交和认知特点。
回归方法是查尔斯·达尔文(Charles Darwin)的亲戚弗朗西斯·高尔顿(Francis Galton)100多年前提出的。早在1877年,高尔顿给出了第一个回归估计公式。还记得奥利·阿森费尔特预测葡萄酒品质的简单公式吗?这个公式就是通过回归得到的。高尔顿的第一个回归估计同样与农业有关。他得出了一个公式,用于根据亲代甜豌豆的种子大小预测子代甜豌豆的种子大小。高尔顿发现,大种子的后代往往比普通种子或小种子的后代大,但是没有它们的亲代那么大。
通过计算,高尔顿得出了另一个回归公式,发现了父亲和儿子身高的类似趋势。高个子父亲的儿子比一般人高,但是没有父亲那么高。在回归方程中,这意味着儿子身高的预测值是父亲的身高与某个小于1的因数的乘积。实际上,在高尔顿的估计中,儿子身高与平均身高的差值对应于父亲身高与平均身高差值的2/3。
在计算父母和孩子智商关系的回归估计等式时,高尔顿再次发现了这种模式。聪明父母的孩子比一般人聪明,但是不像父母那么聪明。“回归”一词与回归方法本身没有任何关系。高尔顿之所以将这种方法称为回归,是因为他估计的第一个事物刚好表现出了这种趋势——即高尔顿所说的“向平庸回归”——我们现在称之为“向均值回归”。
回归可以得到与数据最为匹配的方程。虽然回归方程是用历史数据估计出来的,但它可以用于预测未来发生的事情。高尔顿最初的方程将种子和孩子的尺寸(身高)预测为亲代尺寸(身高)的函数。奥利·阿森费尔特的葡萄酒方程预测了温度和降水对于葡萄酒品质的影响。
eHarmony得出了预测偏好的公式。与网飞和亚马逊的偏好引擎不同,eHarmony回归试图用人们可能不知道或者无法表述的个性和性格特点将兼容的人匹配在一起。实际上,eHarmony可能将你与你从未想过可能喜欢的人相匹配。这是超越个体成员有意识选择的群体智慧,它可以看到在无意识的隐性层面发挥作用的事物。
eHarmony不是唯一试图使用数据驱动型匹配的网站。Perfectmatch也在根据迈尔斯—布里格斯性格测试的修正版本进行用户匹配。20世纪40年代,伊莎贝尔·布里格斯·迈尔斯(Isabel Briggs Myers)和她的母亲凯瑟琳·布里格斯(Katharine Briggs)根据卡尔·荣格(Carl Jung)的性格类型理论设计了一种测试。迈尔斯—布里格斯测试将人们分成16个不同的基本类型。Perfectmatch用这种分类寻找之前结成持久关系概率最高的性格,将拥有这些性格的人相匹配。
True.com也不甘示弱,该网站收集客户的99个关系因子数据,将结果反馈到回归公式中,以计算任何两个成员之间的兼容指数得分。从本质上说,True.com可以让你知道你和其他任何人和谐相处的可能性。
这三项服务都在利用数据进行兼容性预测,但它们的结果存在显著区别。eHarmony坚持寻找与你非常类似的人。沃伦表示:“我们一直在研究如何寻找在智力、抱负、精力、精神、兴趣方面与你非常类似的人。这是一种相似性模型。”
相比之下,Perfectmatch和True.com则是在寻找互补性格。“不管是通过经验还是出于真心,我们所有人都知道,我们有时会被和我们不同的某人吸引,甚至可以更好地和他们相处,”执掌Perfectmatch的实证主义者佩珀·施瓦茨(Pepper Schwartz)说,“所以,迈尔斯—布里格斯测试的优点不仅在于性格,而且在于匹配方式。”
这种关于结果的分歧不是数据驱动型决策应该有的现象。数据应该可以判断更加匹配的人具有相似还是互补的特点。我们很难说清谁对谁错,因为这种分析及其依据的数据是严格保守的行业机密。任何人都可以从互联网上下载我的研究数据(关于出租车小费、反歧视行动和枪支管制的研究),但互联网约会服务匹配规则背后的数据则是有专属权的。
雅虎Personals①的开发者马克·汤普森(Mark Thompson)指出,将社会科学标准应用于市场是不切实际的。“同行评议制度在这里是行不通的,”汤普森说,“我们用两个月时间为雅虎开发了这个系统。我们几乎夜以继日地工作。我们对5万人进行了研究。”
另一方面,匹配网站开始争相证明自己的说法。True.com强调,它是唯一由独立审计机构认证过方法的网站。曾是True.com首席心理学家的詹姆斯·胡兰(James Houran)对于eHarmony的数据声明尤其不屑一顾。“我甚至没有看到他们曾为测试进行研究的证据,”胡兰说,“如果你宣称你在做一些科学的事情……你需要通知学术圈。”
作为回应,eHarmony提供了一些证据,以表明其匹配系统的有效性。该网站赞助了一项哈里斯民调,证明eHarmony目前每天可以促成大约90场婚礼(每年超过3万场)。这当然比没有要好,但它并不是很大的成功,因为该网站有500多万会员,这意味着你所支付的50美元会员费使你走上红毯的概率只有大约1%。其他竞争者很快指出了这个婚姻数据的不足之处。雅虎的汤普森表示,即使你“去西夫韦商店转一转”,你找到未来配偶的概率也会更高。
eHarmony还表示,它有证据表明,它所促成的已婚伴侣生活更加和谐。该网站的研究人员2006年向美国心理协会展示了他们的结论,称在相似的时间长度里,通过eHarmony认识的已婚伴侣明显比通过其他途径认识的伴侣更加幸福。这项研究存在一些严重缺陷,但令我吃惊的是,大型匹配网站不仅在用数据开发算法,而且在用数据证明算法的合理性。
不过,这些服务的匹配算法不完全是由数据驱动的。所有服务至少部分依赖于客户的有意识偏好(不管这些偏好是不是兼容性的有效预测指标)。eHarmony允许客户区别对待潜在伴侣的种族。虽然它只是在迎合客户的愿望,但是这种存在种族歧视的匹配服务可能违反了南北战争以来禁止合同中存在种族歧视的法律。想一想吧,eHarmony是一家营利公司,它向黑人客户收取50美元费用,但却拒绝像对待一些白人客户那样对待他们(将他们与相同的人匹配)。如果一些顾客希望将餐厅里的一个区域作为“盎格鲁裔专属区”,餐厅因此拒绝让西裔顾客坐在这个区域,这家餐厅就会遇到很大的麻烦。
eHarmony拒绝匹配同性伴侣的做法惹出了更大的麻烦。创始人的妻子兼高级副总裁玛丽莲·沃伦(Marylyn Warren)宣称:“eHarmony是面向所有人的,我们不存在任何歧视。”这显然不是事实。即使计算机算法根据用户对436个问题的回答认定两位男士是最兼容的,该网站也不会将他们匹配在一起。这是一个可悲的讽刺。不同于其他网站,eHarmony坚持认为相似的人是最好的匹配。不过,在性别上,它却认为异性相吸。在排名前十的匹配网站中,eHarmony是唯一不提供同性匹配的网站。
eHarmony为何如此与众不同?即使在同性婚姻合法的马萨诸塞州,该公司也拒绝对男女同性恋客户进行匹配,这似乎与它所承认的帮助人们寻找持久满意婚姻伴侣的目标不符。沃伦自诩为“热情的基督徒”,多年来一直与詹姆斯·多布森(James Dobson)的专注家庭项目合作。不管统计算法结果如何,eHarmony只愿意促成某些特定类型的合法婚姻。实际上,由于算法没有公开,因此eHarmony有可能在标准规则之上做了手脚,以支持特定客户。
不过,这些匹配服务背后有一个共同的重要思想,那就是基于数据的决策不需要局限于大众的有意识偏好。相反,我们可以研究决策结果,从数据中梳理出导致成功的因素。本章谈论的就是简单的回归是如何通过改进预测改变决策的。回归方法可以分析数据集,揭示就连专业观察也无法发现的诱因。有时,专家感觉某项因素对于某个结果具有重要的决定作用,但回归方法会发现这项因素作用不大。
举一个有趣的例子。加特·桑德姆(Garth Sundem)在《极客逻辑》一书中通过回归创建了一个公式,用于预测名人婚姻的持续时间。(结果表明,谷歌搜索条目越多,婚姻的持续性就越差——尤其是当前几项谷歌搜索条目包含挑逗性照片时!)eHarmony、Perfectmatch和True.com也在做同样的事情,但他们的目的是盈利。这些服务正在参与一种新的超级数据分析竞争。这是一种正在进行的完全不同的游戏。