数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
上QQ阅读APP看书,第一时间看更新

序二

人类对知识的探寻过程大致是实验、观察、归纳、验证,数据科学就是这样一个格物致知的过程。

20年前互联网初起时,系统为记录Debug而留下日志信息,后来人们发现其中蕴含着业务的细节,体现了互联网经济模式的规律。这个经济模式塑造了人类历史上一批伟大的公司,成就了新商业模式的奇迹。数据科学脱胎于互联网行业,得以通过分析大量的微观经济行为来理解宏观经济规律。

可是数据科学距离这个伟大的愿景差距还不小,我在互联网行业工作了14年,身边很多朋友觉得数据科学只是科学家用于进行数据预处理的工具,也有人说数据科学就是给领导做报表用的。其实我一度也有这样的偏见,直到2018年加入蚂蚁金服,见到很多具备丰富行业经验的分析师被AI背后复杂的数学性质牵绊,难以实现更高的业务价值。为此我和团队成员努力尝试在Python之上建立一个抽象层SQL来提供AI的能力,于是有了探索性开源项目SQLFlow。

“AI平民化”这个想法是Andrew Ng告诉我的,当时我在百度硅谷研究院跟他做Deep Speech 2模型的开发。离开百度后的休假期间,我受Paddle作者徐伟老师的启发,想到从SQL入手实现“AI平民化”的计划。SQLFlow作为一个开源项目,得到了蚂蚁金服CTO胡喜的诸多支持。2019年云栖大会上,老友贾扬清为与会朋友们介绍了SQLFlow。SQLFlow在滴滴的部署和业务探索期间承蒙滴滴CTO张博和SVP章文嵩大哥的支持。

所有这些鼓励背后给予我最大动力的是滴滴首席科学家谢梁老师。SQLFlow产品的很多想法都来自谢老师和团队在使用和实践过程中给出的宝贵建议。可以说是这本书中介绍的很多场景,塑造了SQLFlow。

给行业专家带来AI助力是一个改变人们想法的过程。SQLFlow只是漫漫盘山道上的一段石阶。我2021年初离开蚂蚁金服任Facebook首席工程师时,有几个硅谷创业公司的朋友告诉我,他们的系统受到了SQLFlow的诸多启发。大家奋力开山修路的动力是数据科学的宏大愿景,是“AI平民化”的理想。最终实现这个理想的,一定是行业专家中最具开拓精神,不惧深入理解AI思路的跨界者。期待谢老师和团队对我们这一合作探索的总结能启发后生继续努力!

王益Facebook首席工程师/SQLFlow发明者
2021年5月