大型网站运维:从系统管理到SRE
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 关于SRE

提到SRE(Site Reliability Engineer,网站稳定性工程师),很多人的脑海里第一时间出现的是《SRE:Google运维解密》(此书以下简称Google SRE)。可能很多人在看完这本书后,对书中提到的一些工作方式是非常熟悉的,而更多的人在看完这本书后,会对照自己实际的工作情况,然后有恍然大悟的感觉。为什么会有这样的感觉呢?

在SRE出来之前,运维工作主要聚焦于日常操作,如值班(On-Call),处理工单或跟进线上问题,在这个过程中运维虽然也会涉及线上自动化运维相关的代码开发,但是在执行的时候往往缺少规划和方向性。SRE相比之前对运维角色的定义,对运维进行了更深层次的角色定位。

其实之前的运维工作包含很多方面,如20世纪80年代的UNIX系统管理员,你可以认为他们无所不能,但是细究下来,你会发现之前的工作很零碎,没有清晰的运维实施逻辑。所以传统的运维团队往往被定义为支持业务的组织,传统的运维团队在组织内部和业务团队多为从属关系。

SRE不只是从名称上定义了运维角色的工作内容,更是将之前比较随意的工作目标提炼了一下。因为这个变化,我们发现SRE和之前的运维有了明显的区别。首先,在技能上SRE有开发能力;其次,在做事方式上SRE更加注重统一的工具或平台建设。传统的运维更多地将自己定位成一个操作的角色(如系统管理员、数据库管理员等),只要操作好就可以了。SRE则更加注重对业务的贡献,而不再分是具体操作还是开发。

本书将主要从SRE在组织内部的定位、监控建设、变更管理、异常响应、服务稳定性治理、事故复盘、容量管理和用户体验等方面来介绍SRE在网易内部是如何执行的。当然除了这些方面本书还会对一些重要业务活动保障、运维操作基础、基础组件运维、云计算和容器相关的内容进行跟进,这些内容作为补充材料方便读者对SRE需要准备哪些技能做一些了解。

关于SRE在组织内部的定位模块,我将和大家一起探讨运维在云计算浪潮中的新定位。通过实际案例,探讨SRE在组织内部的工作定位、任务重点及如何为用户创造价值。在监控建设模块,我会着重分析SRE理念在运维层面带来的一些变化,尤其是不同监控背后的理念和运维的选择。在变更管理模块,我会重点介绍SRE可以做和应该做的事情。在异常响应模块,我将介绍线上故障的一些定义及减少故障的方法,包括同城灾备等设计模式。在事故复盘模块,我会重点介绍事故的事后复盘在组织内部的作用及实施方法。另外SRE很大的一部分工作是容量管理,这部分我也会通过一些工具或技巧来讲述一些业务容量上的评估和估算。在SRE工作计划的最后一部分,会涉及用户体验相关的内容,这方面我会探讨SRE对用户体验可以做或应该做的一些点。当然在本书的最后一部分,我也会针对SRE工作涉及的技术和内容做一些技术层面的技能分享,方便读者可以有针对性地了解SRE日常会用到的技能。