前言
为什么要写这本书
过去的10年是移动互联网飞速发展的10年。仅仅10年时间,我们大多数人的生活已经彻底互联网化,我们的出行、餐饮、购物、社交、协同办公几乎全部可以通过移动互联网完成。过去的10年也是大数据与云计算技术蓬勃发展的10年,大数据的4V[1]与公有云、私有云、SaaS的概念如此深入人心,以至于所有行业都无可避免地或拥抱这些新的技术理念或被这些新的技术理念所洗礼。如果说移动互联网和互联网关注更多的是如何在业务应用层创造并满足用户的需求,云计算和大数据就是在基础架构层与数据处理科技上通过技术革新来支撑上层的互联网化的业务需求。说到过去10年的技术革新,AI(人工智能)是我们无法忽视的,它已经远远超越了概念的范畴。我们的生活与工作在互联网化的同时,也被逐步AI化。例如,信息的获取、出行数据的使用、购物,任何通过互联设备(手机、电脑、智能终端)完成的工作都已经或即将经历AI化。
我们用技术栈的视角来层次化地分析问题,云计算所代表的是最底层的基础架构;以大数据为代表的数据处理技术(DT)处于中间层,其中最主要的就是数据库(这也是为什么从20世纪90年代开始,数据库被称作中间件,近年提出的中台概念在本质上正是30年前的中间件,这是后话),本书的主题——图数据库也处于这个承上启下的中间层;最上层解决的则是移动互联网应用问题。
AI技术贯穿以上3层技术栈,因此,了解AI有助于了解一门正在从根本上改变科技、改变行业、改变我们所处世界的重要技术——图数据库技术。在这里我们先前置一个概念:人工智能发展的终极目标是实现强人工智能,强人工智能指的是让机器和算法像人类一样具备图的思维方式。图思维方式的本质是用高维图的方式100%映射和还原世界——实际上是一种图计算与分析的方式(或者说是依托图数据库的计算模式)。如果人脑是终极的数据库,图数据库就是迈进并实现它的最佳路径。
为什么图数据库是终极数据库,而业界常见的关系型数据库(分布式数据库)、NoSQL类数据库、数据仓库、数据湖泊、湖仓一体数据库不是呢?要想弄清楚这个问题,就需要了解如下两个问题:
·烟囱系统(siloed system)
·浅层计算(shallow computing)
过去的40年间,随着关系型数据库的发展,几乎每一家企业,特别是大中型企业中形成了一个又一个像烟囱一样的系统,互相之间存在着“部门墙”“系统壁垒”“业务藩篱”,不同的业务部门与系统之间的通信与数据共享非常困难,而任何一个新的业务需求或需求的变动即意味着关系型数据库层面上的一整套复杂开发流程的变动,甚至是又一套新的系统的出现。随着数据量的增大,越来越多的T+1[2]甚至T+N类型的批处理操作开始出现。随着过去10年间大数据、数据仓库、数据湖等系统陆续出现,虽然其初衷是把全量的数据集中进行处理,但是和关系型数据库一样,这些系统天然地只具备浅层计算的能力,让数据一入湖仓即沉底,很难及时对深度下钻、关联、归因分析等不断变化的需求做出反应。而图数据库与实时图计算技术可以通过对多源、多维的数据进行深度下钻、关联、归因分析,在提供深层计算能力的同时,打破了系统间、数据间存在藩篱的现状。
中国人工智能奠基人之一、中国科学院院士、清华大学人工智能研究院院长张钹教授提出:以深度学习为代表的第二代人工智能技术在世界范围内已经触及天花板,后续突破可能的途径就是跨入第三代人工智能,包括知识图谱、图计算(图数据库)等新的体系架构的发展。这番话背后的逻辑是清晰的:人类庞杂的知识体系的逻辑化、结构化与可视化表达最好的途径就是知识图谱(关系图谱),而对知识图谱进行逻辑推理、推导、演算、查询,尤其是进行深度、高效、智能化、可解释的运算与查询最可行的工具就是实时、深度的图计算引擎。而当计算引擎与存储引擎、知识图谱有机统一的时候就形成了图数据库。可以进行深度、实时、高并发、白盒化可解释的图计算与分析的图数据库是推动AI向前发展的核心武器。图数据库所具备的区别于传统数据库或AI系统的能力,称为“图增强智能”(graph augmented intelligence)。图增强智能不是黑盒化的暴力计算,或缺乏可解释性的深度学习与神经网络,它通过释放机器的算力,让算法得以高效执行,并通过知识图谱以白盒化可解释的方式忠实、高效地完成工作。
在数据库与人工智能的发展历程中,笔者结合自己过去二十几年间作为一名硅谷IT老兵和中关村科技创业者的亲身经历,预见到图数据库与(实时)图计算技术不仅会占有一席之地,更会成为一种主流的甚至终极的数据库,并赋能新一代的人工智能蓬勃发展。本书是笔者对过去几年间沉浸图数据库研究的感悟与阶段性总结的梳理,希望分享给更多志同道合的朋友。
读者对象
本书的读者对象包括:
·图数据库、图计算项目与产品的开发者、使用者、决策者;
·数据库技术爱好者,任何对图技术感兴趣的人;
·任何没有限制性思维、秉持终身学习信念的人。
勘误和支持
由于笔者水平有限,书中难免会出现一些错误或者表述不准确的地方,恳请读者耐心批评指正。如果你有任何宝贵意见,也欢迎发送邮件至邮箱ricky@ultipa.com,期待能够得到朋友们的真挚反馈。
致谢
首先要感谢我亲爱的家人和同事们,在本书的创作过程中,笔者得以在相当长的一段时间内进入“闭关”的状态,我的家人分担了本属于我的家务劳动,我的同事们完成了原本分配给我的任务。
此外,我得到了很多亲友与同事的建议与纠错,在此特别对张磊、孙婉怡、张建松、封军雷、王昊、刘思燕、林晓芳、章矾之、陈亮宇、薛鸿城、苏昌钦、李家文、贺瑞君表示感谢。还有很多其他朋友也提供了帮助,恕笔者不能一一列出,再次一并感谢。
感谢我的天才的同事们、客户们、合作伙伴们,没有你们的鞭策、鼓励、真知灼见、慧眼和超越平凡的认知,我们不会创造出颠覆性的、令人振奋的图数据库产品。
感谢机械工业出版社华章分社的编辑杨福川老师和他的同事们始终支持我写作,你们的鼓励和帮助引导我顺利完成了全部书稿。
谨以此书献给我最亲爱的家人,以及众多热爱新技术,秉持终身学习信念和具有成长性思维(图思维)的朋友们!
记住下面这张图,让我们一起进入图(数据库)的世界。
图数据库
[1] 4V代表体量、种类、速度与真实性,这4个特性的英文首字母都是V。
[2] T+1表示任务处理的时耗为1天以上,即第2天才能运行完毕。