应用智能运维实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 应用运维,保障企业应用稳定运行的关键

企业数据中心、云平台、网络存在的价值和意义体现为支撑应用系统为企业的内部、外部目标用户提供持续、稳定的数字服务。如果用户使用的应用系统连接缓慢、不稳定,那么即使数据中心计算能力强悍、云平台管理完善、网络架构优雅也无济于事;如果应用运行持续稳定,那么即使基础设施出现故障也不是大问题。持续提升应用运行期的稳定性和性能以保障用户数字体验流畅,是所有监控、运维管理工作的唯一关键目标。

在数字时代,一切都依赖于应用系统稳定可靠的运行。然而,智能、互联时代的数字信息系统日趋复杂化,应用之间的交互关系密如织网,随着企业经营对信息系统的依赖程度加剧,负载也急剧增加。互联网、物联网、车联网、体域网等网络结构的多样化也使应用系统越来越复杂。这些趋势给应用系统的稳定、可靠保障带来了挑战。系统故障和宕机频率快速升高,人工运维成本飙升。

著名管理咨询公司麦肯锡在名为Measuring the Net’s Growth Dividend的分析报告中指出,2013—2025年,互联网将帮助中国的GDP增长率提升0.3~1.0个百分点,经济发展的需要势必推动企业对新型系统架构的需求快速增长。如今,几乎所有企业都面临如何利用新一代信息技术来对外提升企业用户价值、对内优化生产流程的问题。应用系统无疑是这些问题的解决方案的核心。

1. 稳定性决定企业数字战略的成败

如图1-1所示,专业评测网站downdetector.com统计,2018年,Facebook系统全年宕机200次,YouTube宕机140次,Google宕机100次。每次宕机损失至少100万美元。应用频繁宕机,用户数字体验糟糕,使得企业损失严重。

2. 应用性能决定企业的营收

对于今天更加依赖数字系统来实现、提升自身价值的企业来说,应用可用性、用户体验和响应时间等性能指标从未如此重要过。雅虎首席执行官玛丽莎·梅耶尔(Marissa Mayer)曾经做过一个实验:她把页面上的搜索结果从10个增加到30个,希望让用户一次性浏览更多的信息。但是,她发现,这样搜索结果的返回时间从0.4s增加到了0.9s,广告收入下降了20%。梅耶尔将提升在线业务的用户体验总结为:速度为王(Speed Wins)。

图1-1 downdetector.com统计的2018年部分互联网公司全年宕机情况

微软、亚马逊也做过类似的实验。2009年,微软在必应搜索引擎上开展实验,发现当服务响应时间增加到2s时,每个用户带给企业的收益会下降4.3%。由于该实验对公司产生了负面影响,最终不得不终止。亚马逊也发现其主页加载时间每增加100ms,就会导致销售额下降1%。对于年营收达数百亿美元的亚马逊而言,1%已是很大的损失。

在智能、互联场景下,在应用云端系统复杂度激增的同时,终端设备的代码量和系统复杂度同步快速增加。如图1-2所示,2014年,大数据平台核心系统Hadoop的代码量为140万行;2015年,Chrome浏览器的代码量为600万行;2016年,波音公司新型787客机的代码量激增到1400万行;2018年,福特F150汽车的代码量达到1.4亿行。一般应用代码量和运维复杂度成正比,而且应用海量代码云、端协同的工作方式给运维带来了新的挑战。

无法抵消信息系统趋于复杂化带来的运维风险,企业数字化营销、数字化生产、数字化管理等战略就是空谈。建设具备全景监控、智能运维能力的应用性能管理系统,保障用户数字体验,提升应用可用性,已成为企业的必然选择。

图1-2 软件系统代码量增长情况