2.2 智能运维,赋予企业运维更强悍的大脑
数字化新术、新需求的涌现促使企业拥有的应用规模和应用复杂度快速膨胀,使得企业应用运维不堪重负。由于应用性能问题导致企业用户流失和经济损失的案例逐渐增加。传统IT运维的被动响应式风险处理机制已难以应对这些问题。实现主动预防的风险处理机制已逐渐成为构建面向未来的智能运维平台的关键。
为应对未来将面临的智能、互联时代的运维挑战,通过机器智能手段处理机器数据、解决机器系统的复杂度膨胀问题,是目前唯一可行的解决方案。搭建智能运维平台,构建高效、智能的应用性能风险主动防御体系,可以让企业变被动为主动,防患于未然。
《纽约时报》一篇文章曾报道,微软研究人员Harry Shum发现:当网站的响应时间比竞争对手慢250ms以上时,用户更倾向于关闭网站。这说明应用软件的用户体验下降或宕机将直接导致用户流失,当前企业经营运转比以往更依赖应用软件。除此之外,近年来新技术、新需求的涌现促使企业拥有的应用规模和复杂度快速膨胀,企业原有的IT运维逐渐无力招架,应用性能异常导致的用户流失和经济损失的问题更加突出。
目前,尽管已有很多企业认识到应用性能问题的严重性,并已加大投入来构建、完善应用性能管理平台,然而,传统应用性能管理主要以实时监控、被动告警方式通知运维人员处理风险。这种方式虽然能降低损失,但无论运维人员反应多么迅速,其仍需要耗费少则几小时,多则几天时间来排查解决故障,因此这种方式无法避免对企业运营造成的影响。阿里云、WhatsApp、Adobe Creative Cloud、Facebook等频繁发生的事故时刻提醒我们问题的严重性。因此,被动处理方式的APM已不能满足企业快速数字化转型的需要,主动分析定位潜在问题、预防应用性能风险已成为未来APM的趋势。如何做到主动防御,提前发现并规避风险呢?
红木神经科学研究院创始人、美国工程院院士杰夫·霍金斯认为:智能的本质是“预测”。只有能够预测未来趋势和可能发生的事件,才能争取提前规避问题的时间,这是变被动为主动的关键。因此,APM只有具备了对未来应用性能变化趋势及风险的“预测能力”,才能主动发现并规避风险,将企业运维人员从烦冗的应用性能管理工作中真正解脱出来。
分析海量历史运维数据是在应用健康状态良好的情况下提前发现风险的主要途径。从数据中找到应用存在的潜在问题与风险,可主动预防应用性能风险。现阶段,APM预测分析能力对用户的价值主要体现在以下几个方面:①预测未来应用性能的变化趋势;②实现更精准的容量规划;③预测、分析应用性能瓶颈;④预测、分析潜在的稳定性风险。
当前市场上具备运维数据分析能力的APM产品主要是面向企业应用的传统APM产品(如CA APM)和面向互联网应用的新型APM产品(如NewRelic、Dynatrace、Netuitive等)。在新发布的产品中,CA APM重点强调主动性能管理能力,通过预测应用未来的负载变化趋势,指导用户优化应用资源配置;NewRelic、Dynatrace强调分析的实时性,提供围绕在线用户、应用事务、用户体验相关的数据统计分析功能,以易于理解的方式将当前围绕应用健康状态的分析结果展示给用户;Netuitive则重点打造面向未来的预测分析能力,利用机器学习回归算法,通过分析历史监控指标数据来给出未来一段时间的指标曲线波动情况。除此以外,Netuitive还能够通过独特的行为学习技术,学习指定时间范围内的监控指标波动状态,发现指标之间的关联关系,预测未来可能发生的异常,并提前生成主动告警。
随着信息技术的快速发展,企业运营对数字信息系统的依赖加大,IT运维的重要性和成本快速增加。同时,新一代信息技术和创新业务流程也在推动系统复杂化,人工运维已经难堪重负,智能运维被寄予厚望。近几年来,无论是学术界还是产业界,对智能运维领域技术和应用的关注度都在快速提升。ExtraHop在2016年面向大中型企业的调查报告中指出,60%的企业有计划整合竖井式的分布异构运维数据源,实现统一运维数据存储分析平台[1]。Gartner预测,到2022年,40%的企业将会部署智能运维平台,实现运维智能化。
[1]ExtraHop Inc.The State of the ITOA Today-How Organizations Are Building IT Operations Analytics (ITOA) Practices[C].ExtraHop. 2016-6-21.