数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
上QQ阅读APP看书,第一时间看更新

前言

为什么要写这本书

2011年,《哈佛商业评论》将数据科学称作“21世纪最吸引人的行业”,随后,数据科学这个概念开始从互联网漫延到各行各业。但是人们对这个概念的内涵和外延并无统一的认知,同时,数据科学也不像软件工程、市场营销等方向有较为明确的教育体系作为支撑,开设“数据科学”学科和课程的学校都是2011年之后才开始探索的,并且大多没有一个适用于工业应用的课程体系。从业人员普遍反映需要一个系统的框架来搭建自己的技术栈和知识体系,从而提升专业化的能力。因此,市场上迫切需要一本覆盖面广、应用性强、深入浅出的数据科学手册。

本书的作者是国内数据科学一线的从业者,创作目的主要有以下三个。

1)提供一个以商业场景为导向的实用量化方法论。数据科学是为商业服务的,最重要的能力是收敛开放的商业问题,并有针对性地选择适当的量化框架进行后验数据分析。这是一个相辅相成的过程,收敛的过程既依赖对业务的深刻理解,又需要充分理解各种分析框架的假设和抽象原理。

2)提供一个入门的台阶,供读者按图索骥、深入研究。数据科学领域知识面广,又有一定的深度,需要长期的学习和经验的积累。一本书很难涵盖数据科学的所有知识点,但是本书可以点明关键节点,起到引导作用,帮助读者进行后续的进阶学习。

3)展示数据科学所需的专业能力和门槛,为读者在求职过程中找准定位、为人事部门进行职能设计提供范例。现在数据科学领域的就业和招聘十分热门,但是能说清数据科学专家到底需要什么样的技能、需要达到什么样的程度,以及这个行业有什么典型成功案例的人却非常少。

读者对象

本书适合以下读者:

  • 初入职场的数据分析师,用于升级个人专业分析技能;
  • 从业多年的数据科学管理者,用于梳理、整合知识体系,提升团队能力;
  • 数据科学、商业分析等专业的师生,用于延展阅读;
  • 数据科学行业的人力专家和猎头,用于标定潜在候选人能力。

本书特色

相比于市面上其他数据科学相关图书,本书有以下特色。

1)将技术与商业场景紧密结合,强调开放性商业问题在量化分析上的收敛。市场上不乏纯技术类的数据科学图书和各种机器学习建模、统计计算的图书,但是这些书都跳过了对开放式商业问题的思考,直接针对已经非常明确的建模本身进行介绍。本书则将重心放在案例分析的全流程上,既讲解量化模型的理论,又解释商业到数理模型的映射过程,还强调了对模型结果的解读和应用,实用性非常强。

2)这是国内第一本系统介绍统计实验在多种复杂商业场景下具体应用的书。统计实验相关的图书通常分为三类:第一类侧重理论研究,对于已经工作的读者来说实践意义不大,且学习难度高;第二类是将生物医学领域的理论和案例相结合,这类书的应用场景和背景与互联网行业相差较大,不容易做到举一反三;第三类是少部分互联网领域统计实验的书,这类书多是外文,知识较新,阅读门槛较高,通常针对互联网广告和搜索领域,在不理解理论背景的情况下也难以迁移到其他场景。

3)本书应用场景覆盖面广,强调实用,可操作性强,将方法论与配套案例的背景、代码、解读等模块结合在一起,让读者学习后即可运用在实践中。

如何阅读本书

这是一本将数据科学三要素—商业理解、量化模型、数据技术全面打通的实战性著作,是来自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师的经验总结,得到了SQLFlow创始人以及腾讯、网易、快手、贝壳找房、谷歌等企业的专家一致好评和推荐。

全书三个部分,内容相对独立,既能帮助初学者建立知识体系,又能帮助从业者解决商业中的实际问题,还能帮助有经验的专家快速掌握数据科学的最新技术和发展动向。内容围绕非实验环境下的观测数据的分析、实验的设计和分析、自助式数据科学平台3大主题展开,涉及统计学、经济学、机器学习、实验科学等多个领域,包含大量常用的数据科学方法、简洁的代码实现和经典的实战案例。

第一部分(第1~6章)观测数据的分析技术

讲解了非实验环境下不同观测数据分析场景所对应的分析框架、原理及实际操作,包括消费者选择偏好分析、消费者在时间维度上的行为分析、基于机器学习的用户生命周期价值预测、基于可解释模型技术的商业场景挖掘、基于矩阵分解技术的用户行为规律发现与挖掘,以及在不能进行实验分析时如何更科学地进行全量评估等内容。

第二部分(第7~9章)实验设计和分析技术

从A/B实验的基本原理出发,深入浅出地介绍了各种商业场景下进行实验设计需要参考的原则和运用的方法,尤其是在有样本量约束条件下提升实验效能的方法及商业场景限制导致的非传统实验设计。

第三部分(第10~12章)自助式数据科学平台SQLFlow

针对性地讲解了开源的工程化的自助式数据科学平台SQLFlow,并通过系统配置、黑盒模型的解读器应用、聚类分析场景等案例帮助读者快速了解这一面向未来的数据科学技术。

勘误和支持

除封面署名外,参与本书编写工作的还有:周银河、丁芬、苏涛、王禹、吴君涵、杨骁捷、刘冲、王玉玺、刘未名、杨凯迪、李依诺、陈祥、朱文静。由于作者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。为此,我们特意创建了一个GitHub仓库(https://github.com/xieliaing/Data_Science_Industrial_Practice)。读者可以将发现的代码Bug、文字问题以及疑惑,在Issue中提出,我们会将修改后的内容及解答通过Pull Request合并进主干。书中的全部源文件除可以从华章网站下载外,还可以从这个GitHub仓库下载,期待能够得到你们的真挚反馈。

致谢

首先要感谢C. F. Jeff Wu、Williaw S. Cleveland、LinkedIn的DJ Patil及Facebook的Jeff Hammerbacher等先驱,他们成功地开创了数据科学这一个行业,影响和激励了无数人投身其中。

感谢快手科技副总裁、数据分析部负责人宋世君把数据科学的理念引入国内,实现了从0到1的跨越。感谢我原来统计科学团队的同事们,他们是国内数据科学的开拓者,通过实践让数据科学的理念在国内萌芽发展、完善进步并得到认可。

感谢发起并维护SQLFlow开源社区的王益博士、刘勇峰老师及其开发团队。

感谢机械工业出版社华章公司的杨福川老师和韩蕊老师,在这一年多的时间里始终支持我们写作,保障了本书顺利完成。

谨以此书献给我最亲爱的家人以及众多热爱并投身数据科学的朋友们!

谢梁
2021年2月8日