数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
上QQ阅读APP看书,第一时间看更新

序一

近些年,数据科学十分热门。有不少公司的中高级管理者向我询问过怎么培养数据驱动的文化和打造数据科学团队,但是在与他们进一步讨论后,我发现大家对数据科学是什么并没有形成明确的认知。因此,我想在这里先谈谈什么是数据科学、这个概念产生的背景以及发展的难点。

数据科学(或者更加广义地称其为数据分析)可以看成以下三个领域的交叉学科:商业理解、量化模型和数据技术。

商业理解是数据发挥作用的场景基础。比如:当前面临的哪些问题是数据能发挥作用的?哪些问题重要?不同问题之间的关系是什么?对这些问题有明确的认知,数据分析师才能集中精力分析数据。除此之外,商业场景往往也定义了数据应用的大框架,比如交易类的业务场景和社区类的业务场景对数据的要求是不同的,需要数据分析师对商业内核和商业模型有深入的理解。

量化模型是数据发挥作用的理论基础。数据分析是一个专业性很强的领域,对从业者的科学素养有相当高的要求。只有拥有坚实的量化模型能力,才能在实际工作中把握公正性和科学性。数据分析工作涉及的量化模型精深且广泛,涵盖统计学、经济学、金融学、社会学、心理学、运筹学、生物学等众多领域。这些学科的前辈给我们留下了宝贵的理论资产。

数据技术是数据发挥作用的基础。在具体的工作中,只有理论和方向是不够的,还需要不断前进,这就需要从业者具备数据操作能力,比如了解常见数据环境、会操作数据库、会编写相关程序等。

如果把数据科学看作一条路径,那么量化模型是起点,商业理解是方向,而数据技术就是路本身。缺乏量化模型的数据科学没有起点,也就没有了根基。缺乏商业理解,就确定不了方向。但是有量化模型和商业理解,知道我在哪,也知道要去哪,只有这些还不够,还要真的有这样一条路。如果把数据科学比作开车,那么商业理解是大方向,量化模型是燃料,数据技术就是发动机。这三者都具备了,才能把燃料转化成向正确方向的位移。

过去20年,数据科学实现了突飞猛进的发展,市场也对这个领域有很高的肯定,这得益于数据爆炸这个大的时代背景。数据分析应用比较多的领域曾经是金融、保险、医药卫生等。在这些领域,获取数据曾经是比较困难的,成本也非常高,所以分析工作对于当时的数据获取而言是相对充分的。但是近些年来,随着科技的发展和行业的变迁,数据的生产和获取速度得到了指数级的提升。我们收集到的数据体量和数据细节的丰富程度远远超过了我们的分析思维和能力的迭代速度,商业形势也以前所未有的速度演化,这就是大数据这个概念产生的背景。在这个背景下,更好地定义和选择问题,使用更好的方法和工具就变得尤其重要。

从学习数据科学的角度看,当下的难点在于上述三个要素是脱节的,很少有机构能够同时提供这三个要素。学校和公司是两类主要的机构:一方面,学校里教授的量化模型是类似前面提及的统计学、经济学、社会学等学科的模型框架,但是由于商业机密等原因,学校很难拿到一手的数据和实际商业场景,教材的迭代速度无法跟上商业领域的变化。而商业理解是需要有实际挑战场景才能锻炼的,所以很多时候,从业者只能在公司里慢慢摸索,甚至有时需要跨公司、跨行业的经历才能提升能力。另外,学校只能提供一些很小的模拟数据集,很难提供逼真的数据环境让学生实际操作。在过去的十几年里,一些高校陆续创立了与数据科学相关的专业,但也很难摆脱闭门造车。另一方面,公司里有大量的数据和实际业务场景,但是需要从业者有扎实的量化学习基础。大型企业可能会有一些相对完善的数据环境,初创公司或者传统企业的境况就更加堪忧,可能连学习数据技术的环境都不具备。

我很高兴看到谢梁和几位前同事一起合著了这样一本数据科学实践教程。这本书结合了丰富的商业场景、多种常见的量化模型和配有实操代码的数据技术主题,很好地把数据科学三个要素融合在一起,给众多对这个领域感兴趣的读者和同行提供了参考。这本书很好地弥补了这个领域的空白,相信会对数据科学在当今商业环境下的发展产生非常积极的推动作用。

宋世君 快手科技副总裁/数据分析部负责人
2021年3月7日于北京