前言
编写背景
分布式系统无处不在。一台计算机内部多个互联的处理器组成了一个分布式系统,它们通过“一致性缓存”算法使每个处理器核心看到相同的数据。近三十年来,随着互联网的发展,越来越多的互联网后台系统采用计算机集群的方式来应对海量请求和数据的需求,这个计算机集群也是分布式系统。
为了简化分布式系统的开发,出现了很多为开发者提供分布式框架的开源项目,例如Apache基金会旗下的ZooKeeper项目就是一个应用广泛的分布式框架。同时,国内也有很多关于如何使用这些分布式框架来搭建应用的书籍,它们极大地推动了分布式系统在国内的应用。我们不仅要知道如何使用这些现成的分布式框架来搭建应用,而且应该知道这些分布式框架背后的设计原理,做到“知其然,亦知其所以然”。这就是作者撰写本书的主要目的。
本书尝试以通俗易懂的方式从理论的角度系统性地介绍分布式系统和算法,使读者不仅从算法层面知道诸如共享内存、共识、信号量等分布式抽象背后的工作原理,还知道分布式系统是如何被建模的,进而知道这些算法是怎么来的、为什么是对的、适用场景是什么,为将来自行设计分布式算法打下基础。
本书对算法的描述与具体的编程语言无关,掌握任何一种编程语言、学习过《操作系统》和《计算机网络》两门课程的人,都能学懂本书绝大部分内容。
不过,学习算法从来都不是轻松简单的过程,再通俗的语言也无法降低算法本身的复杂度,否则本书就不是一本算法书,而“退化”成科普书了。尤其是本书第2章中介绍的I/O自动机,初次接触的读者学习起来可能会比较吃力。但作为分布式系统的理论基础,作者不得不介绍它,否则读者难以理解后面的算法。
本书内容
第1章介绍什么是分布式系统,分布式算法的用处,以及设计分布式算法面临的主要挑战,让读者对本书所介绍的分布式系统和算法的范围有初步认识。
第2章介绍算法模型。分布式算法是一种并发执行算法,与顺序执行算法在模型上有很大的差异。本章首先介绍I/O自动机,这是描述分布式系统的理论模型;然后介绍基于I/O自动机的编程模型,后续章节的所有算法都基于这套编程模型描述。通过本章的学习,读者将意识到设计分布式算法就是在定义自动机与外界的交互行为,并且能够阅读分布式算法。
第3章介绍系统模型。分布式系统十分复杂,我们需要从复杂的现象中抽象出本质,这个过程就是系统建模。本章主要介绍进程、消息、链路和时钟等组成分布式系统的关键组件,并对它们的行为特性进行抽象。这些行为特征包括进程和链路会如何失败、网络时延和时钟快慢对系统有什么影响等。本章还会介绍一些重要的概念,包括同步系统、异步系统等时间假设,安全性和活性这两个既对立、又统一的特性,以及如何评价分布式算法的性能等。通过本章的学习,读者将掌握设计一个分布式系统主要的关注点。
第4章介绍链路,从基础的公平丢包链路开始,依次定义和实现顽固链路、可靠链路、先进先出可靠链路、日志可靠链路等,为后续章节的学习打下基础。这部分算法看起来很简单,但深入理解却不容易,例如,为什么链路抽象中会存在这种看似性能低效的顽固链路,等等。通过本章的学习,读者不仅会更熟悉编程模型,而且将更深入地理解自动机和它的生命周期。
第5章介绍失败检测和选主。之所以把失败检测和选主单独作为一章来介绍,是因为它们是分布式算法的基础,刻画了分布式系统的时间假设。通过本章的学习,读者将知道如何进行失败检测和选主,什么系统能够进行失败检测和选主,什么系统无法进行失败检测和选主。
第6章介绍广播,从基础的尽力广播开始,依次介绍正则可靠广播、统一可靠广播、顽固广播、概率广播、先进先出广播和因果可靠广播。不同的广播有不同的特性,例如尽力广播是代价最低的广播,也是能力最有限的广播;统一可靠广播最大的特点是,所有进程要么都接收消息,要么都不接收消息,有很好的统一性;概率广播,即 Gossip 协议,则适合于超大规模的分布式系统;而因果广播能确保接收进程看到的消息符合因果顺序。通过本章的学习,读者将可以根据需要灵活地选择不同的广播。
第7章介绍共享内存,也叫注册器。本章主要介绍多种不同一致性要求的注册器,包括正则注册器、原子注册器、顺序注册器、因果注册器和先进先出注册器。同时,根据读写进程数量的不同,还介绍了单写多读、多写多读等不同的注册器。本章最后介绍和证明了CAP理论,并揭示了它的独特之处。注册器在分布式系统中有着极为广泛的应用,例如分布式缓存、内存、存储、数据库等,都是注册器的应用。
第8章介绍共识。共识是分布式系统得以实现高可用和一致性的关键技术。根据统一性的不同,本章主要介绍正则共识、统一共识这两种共识。同时,又根据不同的时间假设和进程失败假设,针对正则共识和统一共识介绍了多种实现算法,其中包括Paxos协议、随机共识,以及统一快速共识等。最后介绍了序列共识,并对Multi-Paxos和Raft协议进行了对比。通过本章的学习,读者将对共识的本质有更深刻的认识。
第9章介绍基于共识的应用,包括全序广播、复制状态机、信号量、原子提交(事务)、组成员关系等。最后还会介绍复制状态机的重配技术,实现进程动态地加入和离开系统。在ZooKeeper、etcd等开源分布式框架中的Reconfiguration功能的背后,其实就是复制状态机的重配技术。
第10章介绍基于时钟的算法。本章介绍如何利用时钟同步系统构造网络同步系统,以及如何利用网络同步系统构造时钟同步系统,从而证明了时钟同步与网络同步的等价性。基于这一等价性,读者可以利用现代计算机的本地时钟、时钟同步协议以及原子钟等技术弥补网络的不足,即使在网络异步的情况下,也可以实现同步系统。
以上为本书内容。
致谢
对于工程师而言,写书并非易事,尤其是写一本通俗易懂而又不失严谨性的算法书。有时我在电脑前坐了一整天,竟写了不到一页纸的内容,曾经数百个夜晚、周末和节假日都献给了本书。
首先,我要感谢我的家人,没有他们的理解和支持,就没有这本书。
其次,我要感谢我曾经和目前工作的两家公司。网易将我带入了专业领域的大门,我要感谢邓毅、吴迎晖、周枫等领导对我的指导;中国电信给了我长期耕耘、奋斗的机会和平台,我要感谢余尔东、李桐、杨超、林叶、赵文韬、董昌坤、魏玮等同事对我的帮助,广小明、王峰、张成良、吴湘东、胡志强、黄礼莲、雷葆华等历任领导的支持,以及李正茂、韦乐平、高同庆等集团领导对我的关心(以上人名均按姓氏笔画数排序)。没有这两段宝贵的工作经历,也不会有这本书。
然后,我要感谢在撰写本书过程中给予我帮助和指导的各位专家。中国电信的张涛博士、秦伯钦博士、惠钊老师、程咏阳博士(按姓氏笔画数排序)参与了诸多讨论,并纠正了初稿中的诸多错误;龙芯中科的胡伟武老师指出了本书中的一些不足;福州大学的钱慧教授在百忙之中针对算法证明提供了帮助。还有很多为本书提供了宝贵建议的领导、同事和朋友,不一而足,在此一并感谢!
最后,我要感谢为本书顺利出版而提供大力支持的电子工业出版社的编辑!