数据科学实战指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

推荐序1

入行十几年了,我一直在推广数据思维。

关于数据思维,我铭记于心的是师父的话——用好大数据的前提是先假设任何数据都可以被获取,不要被数据的多少限制想法。真正的大数据是你还未想通如何用它的数据。

大数据时代确实需要一种全新的思维方式,这远比任何数据资源及算法重要。我认为在所谓的人和机器人的“战争”中,赢家应该是受数据驱动的、有数据信仰的人,科技发展的目的是让我们的生活更加幸福美好。

当大家为人工智能与大数据技术兴奋不已之时,是否想过为什么真正从中得利的企业屈指可数?其实大多数公司的大数据水平仍然处于发展初期,而像Google、阿里巴巴这些已经收获大数据回报的公司,一般在十几年前就走上了变革之路。

至今为止,我们依然不能准确形容大数据的全貌,大数据似乎还是一个“正在进行时”词汇,但我坚定不移地认为,未来世界一定是一个高速运转的世界,其命脉肯定依赖于海量数据驱动的实时决策与互动,大数据将从根本上改变人类的生活模式及企业的运营方式,甚至能催生出全新的产业乃至社会形态。

然而,利用海量数据和人工智能算法来帮助企业自动优化并实时执行运营任务的前提是,数据要高度流通且能即时响应。自主化企业要先获得海量数据(内部数据、外部数据、结构化数据、非结构化数据),并具有能够将这些资源转化为智能决策的能力。有了这种数据科学范式,企业就能抢在事情发生之前做出决策。平心而论,这是一个颇有难度的系统工程,要想实现这一系统工程,需要参考详细全面的资料,而本书恰恰提供了构建数据科学系统工程的实战指南。

对问题进行定义并确定目标如何被量化。

获取训练数据并对其进行测试、探索,识别最佳的数据模式。

为数据分析做准备,包括清洗数据、增强数据等。

围绕着定义好的量化目标进行数据分析及建模。

呈现问题解决步骤,找到问题解决方案。

根据量化结果优化以上过程。

虽说想法永远比方法重要,但书中的实战案例可以帮助读者形成更全面的数据认知。根据我个人的经验,凡是把数据科学嵌入公司“中枢神经系统”的企业,都将获得全新视角,提前步入敏捷行动、预测闭环、自动化决策的管理时代。

但要牢记的是,数据科学平台仅仅是一种工具,要想成为行业的领先者,探索如何释放人类的潜能才是上策。

车品觉

车品觉,TalkingData专家顾问,阿里巴巴集团前副总裁,阿里数据委员会首任会长,红杉资本中国基金专家合伙人,拥有十余年数据实战经验,并在实战中形成了独特的数据化思考及管理方式,对大数据的未来发展趋势有着独到的见解。