云计算和大数据服务:技术架构、运营管理与智能实践
上QQ阅读APP看书,第一时间看更新

1.2 本书的框架结构

本书的内容是以图1-1中的服务构建四要素展开的。四要素包括技术构建、服务运营、质量管理和组织能力。如图1-2所示,全书共分为7部分。

(1)云计算技术。

图1-2 本书的框架结构

(2)大数据与数据智能。

(3)服务的技术运营。

(4)智能运营(AIOps)。

(5)安全技术与管理。

(6)服务质量管理。

(7)组织能力。

下面对各部分做简要概述。

1.2.1 技术构建(第1、第2部分):云计算和大数据

1.第1部分 云计算技术

云服务是在技术平台上运行的,技术是云服务的基础。

这是非常难把控的一部分,已经有很多的书和文章在讨论云计算有关的技术,如虚拟化、Hadoop存储等,而且有些书讨论得很深入。

在这一部分,我们决定从另外一个角度来讲解云计算技术。实际上,云服务提供商关心的是能够为服务运营所用的技术,而不是为了技术而技术。因此,本书的重点放在如何建立一个可靠的、可扩展和可管理的平台所需要的技术架构、质量工程和监控体系等,而不是深入讨论某个单项技术。

根据这个思路,本书讲解了相关的虚拟化、海量数据处理等关键技术。但是对很前沿的云计算技术,如果离技术运营比较远,就没有涉及。

在技术方案讨论中,我们也是从实践的角度出发讲解技术设计和实施,以及相关要点和难点。

这部分的作者是在相关领域工作时间很长的技术架构师和资深的技术管理人员,有着丰富的实践经验。

2.第2部分 大数据与数据智能

大数据技术的发展是伴随着云计算技术发展起来的核心领域之一。

从21世纪初的概念提出,经过10多年的发展,大数据技术经过众多大型互联网公司以及行业用户的实践,取得了显著的成果,目前已进入数据智能时代。

这一部分按照五方面展开。

(1)从理论的角度就大数据的一些概念进行描述,目的是通过了解大数据“童年”的故事,循着一定的发展脉络,厘清其发展背后的逻辑,也就是聊一聊其出生、志向、成长。

(2)介绍大数据业务开展的一般路径,重点阐述数据智能下的技术体系要求,同时就数据湖、数据仓库、数据中台策略进行对比分析,以让读者对其各自的背景、适用场景等有一个了解。

(3)针对大数据平台、技术体系和生态,阐述大数据技术的原理、构成及发展路径,以及作为一个核心领域也必然会存在的生态。

(4)讲述数据智能中最体现复杂度的分析系统,从系统类型、技术要点,特别是底层的存储和数据库设计方面进行详细讲述,为读者在进行分析系统选型、设计等方面提供必要的信息。

(5)根据作者所在企业实际在大数据方面的实施经验进行的总结和提炼。

实践是检验真理的唯一标准,虽然一个企业的实践活动并不一定具有普世性,但是可以给大家提供一个非常好的参考。因此作者从企业在不同阶段面临的挑战、实施策略的确定、组织架构和人员的配置要求,再结合市场推出相应产品等几方面进行梳理,最后讲解教训及展望。

1.2.2 服务运营(第3、第4、第5部分):技术、管理、AIOps和安全

服务运营是按照“技术+管理”的双维模型展开的,共有三部分。

1.第3部分 服务的技术运营

这里介绍的是技术维度和管理维度所涉及的知识。在技术维度上讲解生产线设计、高可用体系、监控和自动化。在管理维度上,讲解以ITIL为基础的生产线管理方法。

2.第4部分 智能运营(AIOps)

AIOps是数据能力的体现。因为AIOps是个很新的领域,因此作为一个单独的部分进行讲解。

3.第5部分 安全技术与管理

云服务的安全性是客户最关心的问题之一,这部分讲解云服务的安全保障技术、安全管理体系、云服务连续性保障以及云计算的IT合规性认证等。

这部分内容是全书中系统性最强的部分之一,归功于这部分的作者在研究院多年的潜心研究。

服务运营部分在写作时非常费时,主要是以下两个原因:

(1)“实践→理论→实践→理论”的多次思考和循环,虽然作者在实践中有多年的经验,但在刚开始所做的思考和总结,随着时间的推移和再思考,被推倒重写。如此反复,很耗时间。

(2)现有的经典的技术管理体系过于庞大,并且没有直接针对云服务运营的,要花很多时间从这些现有的体系中进行总结和归纳。与云计算运营最相关的ITIL v3是五本非常厚重的书,还有6-Sigma、eTom等专著,除了培训机构外,极少有高管会去通读,也不会通盘应用的。

这里要强调两个名词的定义。

(1)“技术运营”(Technical Operations):“技术运营”这个词是随云计算的发展而在国外的云服务业界开始广泛使用的。在国内,比较常用的是“运维”,这是沿用传统的公司内部IT的叫法。但实际上,无论从服务的范畴与要求、管理的理念、团队的架构各方面,技术运营大大超越了内部IT运维的范围,已经成为云计算公司运营的一部分。

(2)“生产”或“生产线”:“生产”或“生产线”来自英文“production”。实际上,production的英文原意是指基于7×24小时运行的、可以为客户提供有价值服务的、严格控制管理的服务环境和相关管理。production的英文含义远大于中文的字面含义。在本书的讨论中,用的是production英文的含义。

1.2.3 服务质量管理(第6部分)

服务质量管理(Service Quality Management)部分包括两部分内容:

(1)服务体系建立时的质量保证。

(2)服务体系运营中的质量改进。

1.2.4 组织能力(第7部分)

企业定义了明确的战略方向,只是企业在竞争中获胜的第一步,企业要取得最终的成功,不仅要有正确的战略,更重要的是要拥有能够将确定的战略实施的组织能力。

第7部分专门讲解组织能力,即如何建立与云服务相适应的团队思维方式、团队能力和团队治理。

这一章涉及很多内容,如怎样构建技术运营或运维团队、大数据团队、云服务的客服团队。同时也涉及一些管理上的核心问题,比如怎样建立学习型组织,让团队不断地学习和改进,管理功能分散或统一,组织边界的作用等。

以组织的边界为例,虽然组织的边界带来了效率的降低,但同时也会带来质量的提高。团队边界的作用需要高层管理者做仔细平衡。

建立研发、运营和质量管理的相对独立的团队会对服务质量的提高提供保障。例如,在产品线发布过程中,各个团队会根据自己的目标确定接受标准,从而提高产品的质量验证。这类似于三权分立。团队分立的另外一个原因是,这些团队的工程师风格也是不一样的。例如,研发团队需要更多的创造性人才,而运营团队需要更多按照纪律办事的人才。高级管理者在构建团队时需要考虑这些特性,才能给各团队配备合适的管理与技术人员。这是一个非常重要的话题,因为人员是技术和业务的所有者。特别是DevOps概念的提出,对研发和运维团队的分与合又带来一轮探讨,这些都会在这一部分进行讲解。

本部分的写作也是由云服务公司里做实际管理的高管完成。