前言
市场上已经有那么多关于数据科学(或者大数据)的书了,为什么还要再写一本呢?这是一个很好的问题,我也问过自己八百遍。说老实话,有点稀里糊涂,有点说不清楚。直到有一天,狗熊会公众号(微信ID:CluBear)上发了一篇题为《关于应用型高校“数据科学与大数据技术”专业建设的一些思考》的文章,探讨产业实践之于数据科学教育的重要性。文章发表后,一位热心读者的留言吸引了我的注意力。这位朋友的留言大意是产业实践可以通过参加类似K aggle的数据建模比赛获得。支撑这个观点的一个原因是这种类型的比赛所使用的数据都来自真实的数据产业,有定义清晰的业务问题,所以,通过参加此类比赛,或者接受类似的训练,就可以获得不错的产业实践经验。但是,我的看法有所不同。我对数据产业实践的理解可能更丰富一些。
我认为数据产业实践的核心任务是:让数据产生价值。更准确地说,是在真实的产业环境中,让数据产生可被产品化的商业价值。这个商业价值是一个广义的商业价值,既包括企业的价值,也包括政府的价值。从这个角度看,数据产业实践至少涉及三个关键环节:数据业务定义(把一个具体业务问题定义成一个数据可分析问题)、数据分析与建模(描述统计、数据可视化、回归分析、机器学习)、数据业务实施(流程改造、产品设计、标准制定等)。这三个环节缺一不可。而各种数据建模比赛主要关注的是第二个环节(数据分析与建模)。对于第一个环节(数据业务定义)与第三个环节(数据业务实施)能够提供给大家的训练很少。原因很简单,第一个和第三个环节属于赛事主办方的思考范畴,不需要参赛者再操心。参赛者只要对第二个环节发力就可以了。当然,能够对第二个环节提供优质的训练,这仍然是非常值得称赞的事情。
带着对第二个环节无限的尊重,我想说,其实另外两个环节可能更加重要,而且极具挑战性。如果不能把一个业务问题(例如客户价值提升)定义成数据可分析问题,那么任何数据分析都是胡说八道。只有把业务问题准确定义成一个数据可分析问题,数据分析与建模才能有用武之地。最后,即使数据分析得再好、模型建立得再漂亮,如果无法落地成为可被执行的数据产品,那所有的努力也都是白费的。因此,从这个角度看,这两方面更加重要。而这就是狗熊会的核心理念,可能会和很多书籍文章中的看法有所不同。为了方便起见,我称之为朴素的数据价值观。
朴素的数据价值观认为,数据产业实践不是单纯的数据分析与建模,而是要在一个产业环境下,让数据产生价值。为此,前面提到的三个环节都非常重要,尤其是第一个和第三个。而写作本书的目的就是要同大家分享狗熊会朴素的数据价值观。
为了更好地分享,本书大量采用了狗熊会的精品案例。章节内容都是从狗熊会发布的精品案例的微信推文直接润色修改形成的。因此,这些内容继承了狗熊会精品案例的一些有趣的基因:(1)尽最大的努力把业务问题定义清晰;(2)尽最大的努力让数据分析与建模瞄准业务问题;(3)尽最大的努力让最终分析结果有产品化的可能。这三个基因也正好对应了数据产业实践的三个重要环节。为了增加阅读的趣味性,所有案例的写作风格都诙谐幽默,但努力不失科学的严谨。当然,由于各个案例的作者不尽相同,不同章节的写作风格也有所不同,这可能会在一定程度上影响阅读体验,对此,我表示深深的歉意,请大家原谅。同时为了方便读者利用碎片化时间进行阅读,所有案例之间基本上互相独立,因此,大量章节可以独立阅读,而不受制于前后内容的逻辑顺序。此外,特别值得强调的是,为了降低阅读难度,本书几乎不涉及任何数学符号和计算机代码。但是,这并不代表这些案例是虚构的或者肤浅的。事实上,狗熊会精品案例的生产是一个非常艰辛的过程。一个非常有经验的精品案例Leader,带领自己的团队,一年最多生产5个精品案例。不敢说这些案例多么了不起,但确实是创作团队的心血之作。
在内容组织方面,本书从基本理念入手,按照不同的数据分析方法,由浅入深,组织成不同的章节。其中,第一章系统阐述狗熊会朴素的数据价值观。第二章对经典的统计图表做了系统幽默的阐述。其原型来自狗熊会公号的“丑图百讲”系列。第三章系统阐述我们对于回归分析的理解。在“道”的层面,回归分析是一种重要的思想,是一种将业务问题定义成数据可分析问题的能力;而在“术”的层面,回归分析才是我们常见的各种模型。第四章主要讨论传统的机器学习方法,以及最近很火爆的深度学习。最后一章分享了狗熊会这些年来积累的众多非结构化数据分析的有趣案例,其中涉及中文文本、网络结构、图像分析等不同领域。
本书由狗熊会的核心创作团队,在熊大的“压迫剥削”下,齐心协力,经过多次讨论、修改而成。参与创作的成员有(按姓名拼音排序):常象宇(政委)、陈昱(昱姐)、黄丹阳(小丫)、刘婧媛(媛子)、罗荣华(康爸)、潘蕊(水妈)、王菲菲(灰灰)、王汉生(熊大)、周静(静静)、朱雪宁(布丁)。创作团队付出了巨大的心血和努力。其中特别要感谢两位朋友:一位是百分点集团的董事长兼C E O苏萌博士,是他的启发与鼓励坚定了我们写作的决心;另一位是中国人民大学出版社的李文重编辑,他为书稿的形成付出了巨大的努力,帮助本书选择书名、安排章节、修改文字。大家为什么愿意做出如此辛苦的努力与付出呢?我想都是基于狗熊会的理念:聚数据英才,助产业振兴。这是狗熊会从创立之初到现在从未改变的理念。
●聚数据英才说明狗熊会关注数据科学相关的基础教育,并愿意为之付出卓绝的努力。狗熊会希望通过提供优质的教育素材,帮助年轻人成长,享受数据分析的快乐,而不是痛苦,并在这个过程中实现个人职业的幸福成长。
●助产业振兴说明狗熊会看重产业实践,并认为这才是产生数据科学知识的唯一源泉。狗熊会立志要通过自己微薄的努力,陪伴数据产业一起成长。狗熊会感激每一位曾经合作过的企业伙伴,是他们的鼓励支持让狗熊会站在了中国数据产业实践的第一线,并因此产生了接地气的研究课题,以及高质量的教学产品。
另外,本书中的引用的图片除特别标注的之外均来自网络,鉴于编者在引用这些图片时无法获知原创作者及出处,在此统一对原创作者表示感谢。
最后,把本书献给所有培养过我们的老师,谢谢你们的辛苦栽培。献给我们所有的企业合作伙伴,站在你们的肩膀上,才能看得更远。献给我们的学生,是你们渴望知识的双眼,还有那最美丽的青春年华,让我们重任在肩。献给我们的家人,感谢你们的理解支持,我们才能够努力拼搏,一往无前。祝福我国的数据产业,祝福数据科学教育事业,愿它的每一天都更加美好。祝福狗熊会,愿有更多志同道合的小伙伴,跟我们一起拼搏,“熊”赳赳向前!由于本书写作仓促,疏漏之处难免,请大家多多批评指正!
王汉生(熊大)