数据驱动:从方法到实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 从百度大数据工作的经历说开

2007年我从浙江大学研究生毕业,作为一名软件工程师正式加入百度搜索新产品部的百度知道研发团队。入职第一天,在成功登录邮箱账号之后,我发现邮箱里已经有数十封统计报表邮件,包含了产品的详细统计数据,如检索量、提问量、回答量等。从此,我正式开始了与数据打交道的历程。

百度文化中有一条是用数据说话。不管是产品经理的产品功能设计,还是功能上线后的效果评估,或者是工程师开发的模块性能,都需要用数据说话。如果没有数据支撑,方案就无法通过,因此百度公司有大量的统计分析工作。

我先后做了百度知道的待解决问题推荐、全百度日志统计平台、用户数据仓库、数据源结构化等一系列数据相关的项目。我带的团队,从最初三四个人的小团队逐步成长为百度公司的大数据团队,最后成为独立的大数据部门中的核心部分。在带领新产品部门的数据团队之初,我就给自己设定了目标:在百度公司内,我要让大数据团队发展成为一支与自然语言处理团队同样地位的团队。在我2015年离职前,基本达到目标。

数据工作不同于学习一门编程语言,也不同于在实验室里做理论研究,它需要大量的实践。许多人认为,大数据处理就是把一些开源组件拼凑到一起。但真正做起来后,就会发现人才储备、数据源、数据流建设、数据分析方法等一系列问题源源不断地冒出来。比较幸运的是,我算是在国内最早一批接触大数据的从业人员,并且积累了大量的实践经验。