本书赞誉
本书不是“先假设再测试”,而是以一种更有原则的方法回答了诸如“为什么系统速度慢?”这样的运维问题,最终,本书将成为工程师查询系统状态的分水岭。
——Lorin Hochstein,高级软件工程师兼O’Reilly作者
本书并不回避在团队中引入可观测性文化时所面临的挑战,并就如何以可持续的方式实践可观测性提供了有价值的指导,使可观测性从业者能够获得长期成功。
——Cindy Sridharan,基础设施工程师
随着系统变得更加复杂和分散,监控并不能真正帮助你找到哪里出了问题。你需要能够解决以前没见过的问题,这就是可观测性的作用。在过去的5年里,我从几位作者身上学到了很多关于可观测性的知识,我很高兴他们现在写了这本书,涵盖了引入生产系统的可观测性并从中受益的技术和文化的各个方面。
——Sarah Wells,《金融时报》前技术总监,O’Reilly作者
对于任何希望从可观测工作中获得最大收益的工程师或者管理者来说,这本优秀的书是你的实践指南。本书在简洁和全面之间取得了完美的平衡:它通过定义可观测性奠定了坚实的基础,解释了如何使用它来调试服务并保持服务的可靠性,指导你为其构建强大的业务案例,并最终提供了评估你的工作以帮助未来改进的方法。
——Mads Hartmann, Gitpod SRE
在程序的开发过程中,debug和watch是开发人员的两大法宝,无论是向Linux内核输入洋洋洒洒的日志,还是通过gdb进行在线debug,都离不开对程序执行细节的观测和理解。
云原生应用开发在简化了开发的同时,也对线上运营维护、故障定位、性能调优等领域提出了更多挑战。为了应对这些挑战,从运行参数监控到日志搜集,再到全链路跟踪,开发人员开发了各种各样的工具。本书从针对复杂系统的事件因素出发,通过一系列指导思路,完成了对可观测性的理论定义,并给出了系统可观测性的成熟度模型。
——陈龙,互联科技研发中心负责人
随着数字化转型浪潮的迅速推进,企业数字化IT架构日趋复杂,传统监控系统正朝着可观测性系统演进。本书提供了从概念到原理、从实践到文化的全面阐述,可谓可观测性修炼手册,本书的引入恰逢其时,相信对深处数字化变革和敏捷转型浪潮中的实践者都大有裨益。作为OGA成员,观测云团队代表联盟为中国数字化转型做出了巨大的贡献。
——陈冉,极狐(GitLab)
大规模、分布式系统的复杂性为工程人员引入了一个隐藏空间,随着系统复杂性的提高,隐藏空间也与日俱增,迫切需要一个方法论来带领我们解决所面临的复杂性问题。如何探索这个基于系统行为的隐藏空间,本书作者借用控制论思想中的度量能力来描绘,就是通过高维度、高基数的数据来推断出系统内部状态的好坏,从而使一个复杂性问题具备可观测性。如果你想深入学习可观测性,那么本书不容错过。
——杜玉杰,开放城市共同体发起人
过去20多年,IT团队主要依靠APM来监控和排除应用程序故障,这对单体应用来说足够有效。但现在时代变了,如今的IT团队越来越多地依靠敏捷开发、CI/CD、DevOps、微服务、容器等技术来进行现代应用开发,我们也需要新的观测方法来更快地交付更高质量的软件,以满足数字时代的要求。本书通过全面系统的介绍、真实的案例、不同选型路线比对等内容,向我们展示了可观测系统的重要性以及对组织可能带来的变化,值得每一位相关领域的人阅读。
——霍泰稳,极客邦科技创始人兼CEO
随着软件系统复杂度越来越高,系统的稳定性和业务的连续性也愈发遇到更大的挑战。
传统的运维工作方式,通常由运维工程师根据专业技术能力和丰富的经验来构建一套从监控到故障发现和响应处理的机制。新钛云服的运维服务团队是从盛大游戏技术保障中心成长发展起来的,几乎参与了互联网运维的整个发展路径,从直接使用硬件服务器到虚拟化,再到私有云、公有云,IT基础设施的技术变迁对运维的工作方式产生了巨大的影响。
要说对运维的工作方式影响最大的还是云原生技术带来的变革,现代应用基础系统的复杂性和规模让通过传统的监控工具来检测系统条件变得越来越不合时宜,而基于可观测性的诊断提供了一种不同的方法,可观测性工具的工作原理是通过迭代探索性调查来系统地确定性能问题可能发生的位置和原因。可观测性使我们能够主动识别任何故障模式,无论是已知的还是未知的。运维工程师通过系统的可观测性可以找到深层隐藏问题的来源,比较快速地诊断生产环境中的问题,而与之前是否了解过这个系统并无决定性的因果关系。
观测云提供了一种革命性的技术,让复杂应用系统的稳定性变得更好,也让业务连续性得到了保障。本书非常适合运维从业者阅读,由知到行,一起学习与探索。
——金霄,新钛云服联合创始人
本书给人的第一印象就是系统且全面,它不仅阐明了可观测性与监控等类似概念之间的区别与融合,还基于事件和链路提供了可观测性实现的具体内容。在工具和技术的基础上,对团队应遵循的设计理念和哲学,以及从软件供应链这个更大的范畴理解可观测性,乃至商业层面的思考,是本书“工程”二字的充分体现。对于在云计算、微服务、容器所构建的当代复杂软件系统里,从根源上保障软件的可靠性,本书是兼顾理论和实践的宝贵资源。
——李宁,德邦证券CTO
最近几年非常火的可观测性已经远远超出了传统意义上的监控,作为可观测性领域圣经级著作,本书帮助软件工程师全面而深入地了解可观测性理论及实践,是一本难得的佳作。
——卢盛祺博士,上海市高等教育学会数字经济发展与研究专业委员会委员
可观测性工程是一种软件工程实践,旨在使系统更容易监测和调试。这通常是通过在系统中收集和暴露更多的指标、日志和其他信息来实现的。这对系统稳定性具有重要意义,因为它可以帮助你更快地发现和修复问题。如果你的系统缺乏可观测性,则很难快速定位和解决问题,这可能会导致系统不稳定并出现故障。
此外,可观测性还有助于提高系统的可靠性和可用性,因为它使你能够更好地了解系统的状态和行为,从而能够更快地发现并修复问题。
总的来说,通过收集和暴露更多的信息,可观测性工程有助于使系统更容易监测和调试,并有助于提高系统的稳定性、可靠性和可用性。
——李先磊,北京合思信息技术有限公司运维总监
现代可观测性虽是从传统监控基础上不断进化脱胎而成的,但其技术理念与应用成效已经发生了质的改变。可观测性技术可以与混沌工程、全链路压测等多种稳定性保障工具结合,达到如虎添翼的应用系统优化效果。同时,其内涵也远远超出了故障发现与解决等传统稳定性保障领域,能够通过观测业务数据辅助业务决策,实现更高效的商业价值挖掘。当前,由于业界普遍对可观测性的理解还未更新至最新版本,致使这一技术明珠蒙尘。本书可以帮助工程人员以及团队和业务的管理者更好地认识与建设可观测性这一利器,实现业务运维、系统优化、商业决策方面的降本增效。
——李修莹,前中国信息通信研究院可观测性业务主管
在SRE的技术实践中,“监控系统”始终处于关键地位。2020年起,“可观测性”作为“新一代监控”创新技术实践,与SRE、DevOps、云原生等一起得到了业内专家的广泛关注和认可。
同时,我和SRE社区志愿者在推广和宣传谷歌SRE理念的过程中,发现社区广大学员对于“可观测性”普遍拥有很大的兴趣,但对于它的核心概念以及技术实践并不熟悉,亟须进一步深入了解。
最近,我很欣喜地了解到,由Honeycomb创始人以及谷歌SRE核心专家撰写的这本权威著作《可观测性工程》已经引入中国,并正式出版,确实感到非常高兴,期待在中国打开“可观测性”的新天地,也预祝SRE创新实践持续在国内发扬光大。
——刘峰,中国SRE社区发起人
在软件工程领域,可观测性是一种理念和方法论,它让我们对复杂软件世界有了洞察秋毫的感知力。如果说基于传统监控定位并解决问题的方法像老中医的望闻问切,那么可观测性则让老中医进入了现代医学阶段,有了现代诊疗手段。当然,与被动等待诊治的“病人”不同,构建大型复杂软件系统时,我们需要主动使用可观测性方法,让复杂系统具备更好的“可观测性”。面对云原生时代涌现出来的更高强度的软件复杂性,所有技术角色都可以从本书中获益良多。
——刘庆,简单云创始人
可观测性是近年来软件系统方面最热门的话题之一。作为可观测性社区的开源领袖,本书的作者详细解释了云原生时代可观测性与传统监控的区别,高屋建瓴地阐述了工程团队应该如何从文化和工具等不同层面有效构建可观测性,更进一步指明了构建可观测性系统的技术难点和细节,创新性地提出了管理学层面的评估模型和趋势预测。本书绝对是可观测性乃至软件工程从业人员的必读好书。也感谢出版社将此书引入中国,功莫大焉。
——饶琛琳,《ELK Stack权威指南》作者、日志易产品副总裁
SLO(服务等级目标)是需求规划、开发、测试、运维和运营各个阶段协调配合,一起达成的重要综合性软件服务指标。
随着云原生、微服务和Serverless的流行,以及开源技术栈的普及、移动化引发的计算存储跨区域调度,开发和运行环境的多云异构性越来越明显,软件服务的故障越来越呈现分散、偶发、难复现等特征,故障定位、根因分析和系统调优迫切需要跨团队和跨系统的协同合作,传统割裂的监控和日志工具已无法满足云原生时代开发和运维的需求。
可观测性工具将全时、全域、全栈分散的数据进行整合,从而支撑从规划设计、开发到运维运营的端到端SLO,并支持工程师不断优化,最终达成目标,是云原生时代工程师最好的工具。
——任建华,华业天成资本董事总经理、数字化资深投资专家
大型复杂软件系统往往会出现“when things work, nobody knows why”这种尴尬局面,而且这一现象伴随着云原生技术的规模化应用正在变得更加严重,如何拉通开发与运维之间的有效协作、如何基于传统监控体系去构建数据关联分析与数据洞察的能力,以及如何在系统设计阶段去构建体系化的可观测性都成了现代软件研发不得不面对的问题。正如显微镜的发明改变了人们理解疾病的方式,可观测性的实践必将改变我们对于复杂软件的掌控力。
——茹炳晟,腾讯微信支付Tech Lead、腾讯研究院特约研究员、中国计算机学会CCF TF研发效能SIG主席
可观测性作为一种全新的软件工程文化在业界被逐渐接受,很多工程师将其视为一种范式性进步,它将帮助工程师在时间、空间维度更加深入地了解系统的运行状态,回答发生了什么。本书作为可观测性领域的少有佳作,全面介绍了可观测性的发展历程、原理及应用,非常具有学习价值。
——魏佳,汇量科技资深架构师
在软件系统工程中,可观测性已成为近年来备受关注的话题。随着软件系统规模的不断扩大和云原生环境的日益复杂,可观测性在软件工程中的重要性也愈加突出。本书不仅涵盖了可观测性的基本知识和技术理论,还提供了详细的实践方案,是学习和实践可观测性的最佳资料,值得推荐阅读。
——杨攀,极客邦科技副总裁&TGO鲲鹏会总经理
数字化转型已逐渐成为中国众多城市的长期发展核心议题。这是一个不断迭代与渐进的过程,既需要技术的强力驱动,更离不开思维模式的转变、体制结构的深刻改革以及商业运营模式的全面完善。在对美好生活品质的向往之下,在城市服务稳定运行和高效治理的背景中,错综复杂且庞大无比的数字化系统提供了坚实可靠的支撑。为了精准设计、高效研发、稳定管理以及持久优化这些数字化系统,实现可观测性已然变得至关紧要。可观测性有力地推动着数字化管理水平升级、城市治理范式嬗变,并使得数字治理手段日益多样化、精确细致和专业高端,实现类似于从“X光”到“CT”的诊疗技术飞跃,助力我们更加全方位深入地洞悉系统内部运作状态,并揭示数字治理新领域。我推荐本书作为技术管理者的良读之选。
——姚震,上海市大数据股份副总裁
可观测性是观察、感知、探索软件系统的运行状态、稳定性及用户体验的重要能力,超越了传统运维监控。可观测性可帮助软件系统提高开发敏捷性、加速测试发现问题、管理技术复杂性、增强软件质量信心、加快排错排障。本书是可观测性方面的难得佳作,书中深入探讨了可观测性的各个方面,涉及理念认知、工程实践、建设思路、成熟度度量等,也讨论了探针、采样、数据流水线等具体技术。本书内容对广大的软件工程师、架构师大有裨益,可以让大家对可观测性有更加清晰的认识,从而推进可观测性工程建设,帮助工程师更加主动地探索软件系统中未知的“线索”。
——张观石,虎牙直播前SRE高级经理、架构师、《SRE原理与实践》作者
近两年,可观测性技术成为继容器云、云原生、服务网格后的又一革命性技术话题,受到全体技术人的广泛关注。本书不仅全面阐述了可观测性技术的可行性理念,也首次展示了该技术众多难题的解决方案及实现细节,更有机地和当今主流的SRE、DevOps、云原生等理念深度融合,使得可观测性技术在企业落地有了轨道和承载。
“从全局把控、从痛点入手、从案例切入”是本书的核心要义,作者用轻松易懂的方式把可观测性这一抽象技术讲解得生动又通透!本书是该领域每位从业者必不可缺的核心技术宝典!
——张冠宇,马哥教育总经理、原美团点评运维架构师
云原生和微服务生态的蓬勃发展促进了分布式应用的实践,这为保障软件系统的可用性带来了便利,同时也不可避免地增加了业务排障的复杂度,可观测性工程的存在由此变得十分必要。本书以可观测性的概念和原理为起点,直面其能力的落地、应用和传播问题,以团队化、规模化和效益化的视角构筑并展开解决方案,颇具启发性。
——张海立,驭势科技云平台研发总监
可观测性是现代工程的重要实践,无论是生产制造还是建筑工程都有坚实的可观测性理论和工具。软件工程在这方面起步较晚,还在持续改进。本书系统地讲解了可观测性的概念、理论,并提供大量实践指导和案例,非常有助于在现有的工程和组织中构建可观测性能力。
——张海龙,CODING创始人
无论是个人爱好者进行学习提升,还是企业架构师进行架构优化,本书都是一位优秀的“导师”。全书通过对“可观测性”“监控”“遥测”“AIOps”等多种技术栈进行对比,引导读者正确认识可观测性,并进一步通过案例分析带领读者快速构建可观测性能力体系。
——张红兵,「DaoCloud道客」COO
随着近年来AIOps的流行,可观测性再一次成为一个热门概念。在国内大部分厂商将APM和可观测性混为一谈并兜售传统APM软件的背景下,普及可观测性理念变得极为迫切。本书并没有手把手指导你如何开发一个观测诊断平台,而是系统地介绍了可观测性的概念、原理和构建可观测性所要具备的核心能力。借助本书,你能理解在云计算已进入全面云原生时代的今天,软件系统具备可观测性是何等重要,以及将可观测性的思维引入软件系统的必要性。
——赵成阳,字节跳动软件工程师
作为可观测性从业者,我经历了可观测性从运维团队监控告警的一部分到被越来越多的开发和测试团队引入的过程,越来越多互联网之外的企业主动规划咨询和采购可观测性服务,我相信可观测性技术在国内度过了创新者和早期采用者阶段,形成了相互促进的优秀产品和服务、领先企业的最佳实践以及先行者的技术布道三要素,跨越了技术成熟度的死亡之井,开始在国内走向流行。
每一次技术理念的发展,都伴随着优秀书籍把先进的理念和最佳实践经验带给大家,本书会成为可观测性行业的必备书之一,更深入地推动可观测性实践,使之成为工程师团队的一个必备技能和工具,提升中国软件工程能力。
——赵隆兵,观测云
本书从理论到实践全面探讨了可观测性在现代软件工程中的重要性和实践路径,具备一定的前瞻性和创新性,为构建稳定安全运行的系统提供重要的指导。对于云时代的系统架构师、运维工程师、开发人员和管理人员来说,本书将是不可或缺的技术参考书。
——郑立,中国信息通信研究院云计算与大数据研究所副主任
过去20年是一个幸运的时代,云计算、云原生等计算机技术的发展,激发了开发者的创造力,铸造了波澜壮阔的数字化浪潮,相信各位读者都是该过程的见证者与受益人。
与此同时,快速的业务迭代和丰富的使用场景常常使现实的系统与理想的设计出现差异,稳定性、成本、安全、性能等问题时刻挑战着我们宝贵的时间和精力。如何对系统、软件构建一套数字化的度量+管理方法变得迫在眉睫。系统从被监控到被系统地观测再到被外部正确掌握,逐步成为行业的发展趋势。
站在从业者的角度看,成熟的工具产品也使得个体的能力范畴越来越大,例如,我们回顾过去10年的发展,研发已经把可测性、架构稳定性等原本属于测试、架构的范畴左移到设计、架构阶段。考察一个程序的可测性、测试覆盖程度成为开发者的必备技能。同样,一个系统对外部是否能暴露易于观测的接口、容易被处理和分析的遥测数据、容易通过开关控制的接口,也成为不可缺少的基本能力。
今天非常高兴有机会阅读《可观测性工程》这本书。作为云计算系统的研发者,书里提到的理念、实操和工程原理都是务实的经验之谈,对当下工作和未来思考都有启发,译者翻译得也非常专业。十分期待可观测性工程技术能在国内得到更好的发展。
——周琦(简志),阿里云计算技术总监/阿里云SLS技术负责人