数据浪潮
上QQ阅读APP看书,第一时间看更新

序言

数据本身是一个很大的话题,也有着非常悠久的历史。近年来,一提到数据,大家几乎就会想到大数据,尤其是在大数据被各行各业不断“吹捧”之后。其实数据是一个非常广泛的概念,本书主要介绍数据管理系统在历史上的重要发展节点和技术变革,同时整理数据管理系统的架构设计和算法技术,最后探讨数据管理系统的前沿进展和发展趋势。本书内容一方面会偏向自然科学史或者技术科学史,介绍数据管理系统的技术历史。另一方面,因为我是做技术出身,所以难免会“克制不住”地去讲技术,但本书并不会像工具书那样深入介绍技术细节。总而言之,这是一本从宏观角度讲述数据管理系统的技术和历史的书,比科普读物分析得更深入,比技术读物更浅显易懂。如果非要类比的话,我觉得本书更像我读博士第一年做出的工作成果,即撰写的自己研究领域的综述文章,因此这是一本“综述书”。但是这本“综述书”不是一个博士一年级、刚接触这个领域的人就能写出来的入门级综述,而是凝结我读完博士、踏出学术界、在工业界摸爬滚打几年后的总结与思考的产物。

写本书的初衷有3个。一是写技术科学史的人往往会介绍学科级别的科学,而不会介绍像数据管理系统这样非学科级别的细小门类的科学。但是数据已经深入我们的工作和生活,连小孩子都开始学习编程,而且越来越多的人开始关注并进入大数据管理这个领域。二是做数据管理系统的人往往会写诸如“数据库存储引擎优化原理与实现”的非常专业的书,但即使像我这种做技术出身的人有时也很难有勇气认真读完这样的书。三是我认为数据管理系统是一个越发重要的研究和实践方向,因此我们有必要弄清它的历史,因为只有了解历史才能更好地走向未来,而这却是技术人员容易忽略的一点。本书适合对数据感兴趣、从事大数据或者数据库相关工作,以及从事与数据相关的投资、法律等工作的人阅读,用于让读者系统且稍微深入地了解大数据管理系统。

随着大数据管理系统(如MapReduce和Spark等)逐渐成熟、稳定、走向商业化,国内各大互联网公司(如百度、阿里巴巴、腾讯等)纷纷开始研发自己的数据管理系统,一些创业公司也以分布式数据库(如TiDB等)作为切入点迅猛发展,数据库系统逐渐从“殿堂象牙塔”走向“寻常百姓家”。目前关于大数据或者数据库的书大概可以分为3类:一是像《大数据》这样从非常宏观的国家和社会的角度谈大数据的意义的书;二是像《大数据库》这样介绍数据管理系统的工具使用方法和代码示例的书;三是像《PostgreSQL数据库内核分析》这样从非常专业的角度介绍技术细节的书。每当读到这些书时我都受益匪浅,但是总感觉少了点儿什么。

攻读博士学位时,我选择了中国人民大学信息学院的“强势”学科——数据库。毕业后,我进入华为“2012实验室”旗下的高斯实验室,做分布式数据库相关的工作,但我一直想做一些与学术相关的事,于是萌生了写书的想法。在繁忙的工作之余,我利用平时休息的时间,完成了本书的编写。

本书主要从历史的角度介绍数据管理系统(数据库和大数据管理系统)的重要发展节点以及技术变革,既包括重要的历史变革事件介绍,也包括关键技术的介绍以及主流系统的架构介绍,并且以历史的眼光看待这些发展,探讨发展趋势,给出自己的见解和思考。

读者在阅读本书的过程中,可能感觉有时像在读小说,有时像在读历史,有时像在读教科书,还有时像在读一本纯粹的技术书。但归根结底,我希望读者能从本书中有所收获。

吴 垚

2022年4月