1.2.1 网络运营与运维效率
虽然电信网络在不断演进,网络运营和运维工作也跟随着调整,但是经过多年发展,当前仍然存在一些问题。高德纳(Gartner)调查报告统计的网络运维问题如图1-3所示。75%的网络问题都是由最终用户感知和发现的,并通过投诉向运营商反馈问题,客户体验和满意度很难得到保证;37%的网络故障是由网络变更造成的,当前网络结构越来越复杂,网络的运维管理已远超人的能力;运维人员90%的时间都用来识别故障产生的原因,运维效率低。
图1-3 网络运维问题
电信网络运营商都想改变这些现状,而改变这些现状,首先需要深刻认识到这些问题的本质。是什么导致了这些问题呢 ?问题并不是单点导致的,这需要从运营商庞大的运营和运维的组织、流程与支撑平台来综合看待。
下面通过3个方面,逐步展开对问题及其根本原因的分析和阐述。
第一个方面,网络复杂度增加,导致运营和运维的难度呈几何级数增加,已经超越了人的能力范畴。
虽然用户在使用网络时基本是无感的,但是在网络的背后,有大量的运营、运维人力在持续不断投入。网络涉及由接入网到城域网、骨干网、核心网等相当长的链条,整个网络上业务的设计上线、开通和维护,均需要大量人力、系统协同完成。运维人员面临的困难是怎样的呢?以下从业务、网络技术、网络参与角色3个维度呈现电信网络的复杂性。
业务维度。电信网络具有多业务、多客户体验管理的复杂性。一张电信网络上跑着多种客户业务,例如家庭宽带、个人手机、企业专线等,不同客户的不同业务要实现自动化运行的外部约束各不相同,因此网络系统要能理解不同客户、不同业务的动机和意图。
即使对于无线网络领域,也可能有2G/3G/4G/5G等多代并存,各自服务着不同客户。无线网络的可调参数,在3G、4G时代通过“堆人”的方式还勉强能支撑,但到了5G,其可调参数数量高达2000个,其维护难度已经完全非人的能力所能承受得了,必须借助系统来完成准确的参数调整工作。
在垂直行业的网络领域,各类行业客户也有不同的定制诉求,成千上万的差异化业务诉求,需要运营和运维人员同时掌握相关行业知识,这几乎是不可能完成的任务。
网络技术维度。电信网络存在多网络技术领域、超网络技术领域的复杂性。电信网络既有数据中心网络这种集中的结构化网络,也有区域分布的IP和园区网络,还有海量的末端覆盖的固定接入FTTx(Fiber To The x,光纤到x)和无线网络。
预计在不久的将来,网络将出现超分布、空天地海一体化的情形。在产业难题方面,随着5G成为重要的ICT基础设施,全球将迎来一个超分布式的大规模复杂网络,再加上超分布网络与计算的深度融合,这将使网络架构的演进和整合成为世界性难题,这也将推动产业界团结一致、共同解决。
网络参与角色维度。电信网络全生命周期的运营涉及的角色复杂,多种运营和运维角色同时接触网络,人员繁多。以某运营商为例,从网络规划建设开始,有设计人员、督导人员、施工人员、监理人员会与这张网产生联系。这些人与系统相互交互,让运营、运维关系更加复杂,也更容易出错。
所以,面对如此有难度的网络运营和运维工作,必须改变工作模式,引入自动化、智能化的技术,提升网络本身解决问题、简化问题的能力,将人从这“泥潭”中拯救出来。
第二个方面,网络规模持续增长,而人力主要投入到简单、重复的低效工作中,没有精力投入到高价值的工作(如营销策略、网络规划、风险分析、优化等)中,受OPEX限制,人力相对不足,导致只能被动应对客户投诉,无法主动运维。
GSMA(Global System for Mobile Communications Association,全球移动通信系统协会)发布的《2022 中国移动经济发展》[2]报告显示,2021年全球物联网总连接数已达到 151 亿,预计到 2025 年将增至 233 亿。面向2030年,通信网络将从连接百亿人向连接千亿物的方向发展。随着网络规模及数据量的不断增大,故障发生频率将会更高,当前被动式、没有闭环化的运维难以满足用户对网络稳定性的诉求,且目前市场竞争激烈、获客成本攀升,容易导致用户更快流失,从而带来更严重的经济损失。如果不能扭转这种被动的局面,运营商必然陷入恶性循环的“泥潭”。
2021年在上海举办的世界移动通信大会上,中国移动副总经理李慧镝讲述道:“为了运营好全球网络规模最大、结构最复杂、设备厂商最多的移动网络,中国移动部署了5.9万名网络运维人员,年投入约1400亿元网络运维费用。面对提升网络质量和降低运营成本的双重压力,中国移动将进一步加快推进网络运维数智化转型,全面采用自动化、智能化的技术实现面向客户感知的端到端运维支撑能力,实现业务敏捷开通和网络高效运维。”
实现网络的SLA保障仍然很困难。网络拥塞导致的业务卡顿、闪断、质差随处可见,即便用户投诉后也难以精确定位和快速恢复。当前的用户体验管理都是基于投诉驱动的,75%的网络问题目前都是由最终用户感知和发现的,分析处理速度无法支撑网络故障的提前准确定位,更无法预判网络瓶颈和潜在的问题。60%运营商的运维是“黑匣子”,做不到端到端的可视,在发生网络故障或遇到瓶颈后,无法快速恢复业务或优化网络资源,无法形成端到端的闭环手段并快速解决[3]。故障很难被事前发现和预防,客户体验和满意度难以得到保障。
所以,未来的网络运营和运维必然是“主动”式的,运营商使用先进的自动化、智能化技术武装自己,主动服务好客户,掌握业务发展的主动权,让网络自身承担更多简单、重复的工作。
第三个方面,运营和运维经验不可积累和演进,主要由人工操作,不能继承或成本高,未来需要将经验数字化交由系统完成,重复使用。
当前运营商的运营和运维的经验一般是与场景强相关的,并且大量依赖人工操作,无法移植到其他类似场景,或者移植过程成本很高,且无法自动适应新情况,导致效率提升的工作需要反复做,没有完全发挥出批量快速复制的效能。
相对网络规模来说,当前电信专家资源是稀缺的。中国电信在其2021年的首次A股招股书中写道:“创新开展‘腾云计划’人才培养项目,培养1000名领军IT上云专家。大力培养‘懂行业、懂客户、懂生态、懂技术、会沟通’的产业数字化专家队伍,推选2000名领军的行业专家。”
然而通过简单“堆人”的方式“生产”专家资源越来越不现实,主要原因如下。
首先,培养一个电信专家耗时耗力,且培养模式难以大规模复制。电信专家能力模型要求门槛较高,如图1-4所示,不同的网络专业所需运维知识均不相同,每个专家除了初期学习专业运维知识外,仍需要大量实践来积累经验。单个人通过经验沉淀成为电信专家,一般需要数年时间,而所有经过初步培训的专家种子,都需要分布到不同的工作环境中,所面临的实践环境各有不同,其培养模式自然也没办法大规模复制。
其次,专家资源“陷在”网上事故的“泥潭”中,没有精力投入主动运维的研究中。一个专家处理网上事故的过程不可重复,导致专家只能处理紧急事故,没有时间开展重要而不紧急的预测、预防技术的研究,专家资源几乎全消耗在紧急事务的处理中。
图1-4 电信网络运维专家能力模型
最后,专家培养速度无法与网络运维人力需求匹配。随着网络结构越来越复杂,网络管理的要求已超越人的能力,培养专家的难度越来越大,周期变长,专家资源愈发稀缺,而且年轻人不太愿意干这类重复的事情。
鉴于专家资源与网络运维工作需求间的缺口越来越大,业界提出将运营和运维的专家经验数字化,作为知识库供全网范围引用,既可以避免这些宝贵的专家经验失传,也可以加速专家经验在更广范围的推广应用,提升场景规模复制的效率。专家通过学习这些汇总的经验,又可以抽象归纳出更多高级的经验,再对这些经验进行数字化,注入自智网络中,形成不断演进的良性循环。
关于网络知识和专家经验数字化的技术,是面向更高阶的智能化网络的,目前正在蓬勃发展,但也存在一些关键的技术挑战,需要不断研究和完善,具体可参考5.5节。
综上所述,当前的网络运营和运维效率,已经无法满足网络高速发展的要求,必须借助自动化、智能化的先进技术提升效率,以有限的人力来满足无限可能的业务诉求,同时提升最终用户的客户体验。