3.1 算力网络架构
算力网络的技术组成主要包括控制面的算网协同调度、数据面的网络融合感知、管理和服务面的算力资源编排等。算力网络体系的整体架构应该具备统一纳管底层计算资源、存储资源、网络资源的能力,并能够将底层基础设施资源以统一的标准进行度量,抽象为信息要素加载在网络报文中,通过网络进行共享。在目前的算力网络体系中,还应考虑面向用户提供直观化的组件和服务能力,通过服务层与底层资源和网络接口之间的打通,实现编排、调度、应用中的可视化。
如图3-1所示,基于算力网络体系架构中各模块功能的分类,以及各模块之间的关系,可将算力网络按功能层次进行划分,大致可分为服务提供层、服务编排层、网络控制层、算力管理层、算力资源层和网络转发层。各功能层的详细描述如下:
图3-1 算力网络架构
1.服务提供层
服务提供层主要实现面向用户的服务能力开放,用户可以通过服务编排层调用平台的原子功能及服务,如负载分担、AI算法等。服务提供层通过北向接口与用户的业务服务打通,用户可以在自身的应用中定义业务、服务,而对于业务、服务中需要用到的一些功能和算法,直接交付给服务提供层来完成,服务提供层将处理之后的结果返回给用户。用户对于服务提供层的功能管理,需要通过服务编排层来间接实现,但是对于原子功能的调用则直接通过与服务提供层的接口实现。
服务提供层通过南向的接口从网络控制层获取算力资源及网络资源信息,供本层的信息处理使用,并在对用户返回信息的同时,将处理完成的中间数据或其他必要的信息交付给网络控制层使用,如图3-2所示。
2.服务编排层
服务编排层负责对虚机、容器、网络等服务资源的监控、纳管、调度、配给和全生命周期管理。服务编排层在整个算力网络架构中的作用相当于一个中央控制器,通过与各层之间的接口将编排调度指令下发,并获取返回的信息,再将信息回传给用户,如图3-3所示。
图3-2 服务提供层功能关系图
图3-3 服务编排层功能关系图
在资源协同方面,服务编排层会保存目前的资源状态,包括计算资源、网络资源等,在资源状态本身发生变化的时候,服务编排层能获取到相应的信息,并更新本地的资源状态;在用户对于资源的需求发生变化时,服务编排层会根据当时的资源状态情况进行动态配给,以保证用户对于算力资源的使用;在底层资源由于故障等原因发生变化的时候,服务编排层也会根据资源的情况进行实时变更。
在资源管理方面,服务编排层需要算力资源层及网络转发层的信息支持,并负责资源从产生到消亡的生命周期管理,上层对于计算资源和网络资源的使用,只能通过服务编排层进行,而不能采取传统的方式通过操作系统或命令行来直接配置。
在流程管理方面,服务编排层对于应用服务的管理具备DevOps体系管理思想,其促进了IT、CT、OT技术人员之间的沟通。用户对于服务提供层的原子功能或服务的需求,从服务编排层作为入口,计算资源和网络资源的提供通过服务编排层作为出口,同时,对于各类资源和服务的监控及管理也可以通过服务编排层实现,从而实现整个算力网络系统的正常运营。在将来算力网络的发展中会出现将算力作为一种商品进行交易的平台,称之为算力交易平台,服务编排层在交易平台的算力买卖和基于算力交易的应用开发功能中,也需要具备算力的流转及基于算力的应用部署流程管控的能力。
在安全管理方面,服务编排层应具备对用户和资源的鉴权认证能力,用户能否对算力网络系统实现能力调用,计算资源及网络资源能否加入资源池供用户使用,需要通过服务编排层的安全确认。此外,服务编排层还能够实现对用户及资源的优先级划分,例如,通过鉴权认证功能,允许具备VIP权限的用户优先享有对算力资源的使用,或者对于某类用户具备高优先级的算力资源,能够优先被该类用户所使用,而对于未通过鉴权认证的用户或资源,可以禁止其在算力网络中完成功能交互或只能实现有限的功能交互。
3.网络控制层
网络控制层主要通过网络控制平面实现算力信息资源在网络中的关联、分发、寻址、调配、优化等功能。网络控制层在整个算力网络中起到承上启下的作用,它既负责将底层的资源信息进行搜集、分发,又负责为上层提供网络服务,同时当服务编排层需要网络控制层的信息交互时,能够实时交付最新的网络状态信息及全局的算力信息,如图3-4所示。
网络控制层在具体的实现上可以有集中式控制和分布式控制两种方式:前者的特点在于信息的集中管理与控制,根据完整信息所做出的决策不易出错,但达到信息完整的时间更长,做出的决策不够及时;后者的特点在于决策的速度快,时延小,在网络变化频繁时的时效性高,但在大规模网络中,信息的传播时延可能会导致某个瞬间网络中各设备做出的决策不同步。总体而言,在目前的算力网络系统中,可以根据网络及所需要管理的资源规模来综合选择具体的实现方式。
图3-4 网络控制层功能关系图
算力信息来自算力资源层,需要关联到网络层并进行传播,网络协议报文作为信息的载体,可根据算力信息资源建模后的度量值,定义新的链路状态数据报文(如OSPF协议)或采取TLV的方式(如ISIS协议)加载在原有的协议报文中,从而完成算力信息与网络层的关联。
在完成算力信息的关联后,网络控制层需要在全网实现算力信息的同步,由于算力信息承载在网络协议报文中,所以算力信息的同步必须在网络协议的邻居建立后完成。因此,算力信息的变化不仅会因为自身资源的改变而变化,也会随着网络邻居状态的改变而变化,这种变化也需要通过网络协议报文的分发而实现全网同步。网络层中常用的协议有IGP协议(包括RIP、OSPF、ISIS、EIGRP等)和BGP协议,其中IGP协议负责自治系统内的网络信息同步,BGP协议负责自治系统间的网络信息同步。算力信息要实现自治系统内及自治系统间的同步,就需要对IGP协议及BGP协议进行扩展,具体的实现细节目前在IETF尚处于研究阶段。
算力信息的关联与全网信息同步,最终的目的是实现基于算力的网络路径选择、调配与优化。传统的网络协议根据链路的开销进行最短路径树计算,从而得出到目的节点的最优路径,而算力网络通过基于算力信息的网络路径计算来完成最优路径的选择,例如,当某种视频应用所需要的计算能力来自GPU,算力网络会根据网络中的GPU算力信息来指导路径的计算,即使用户到某个CPU资源的链路开销更少,也不会对其进行选择。当网络中算力信息发生变化时,算力网络路径的改变会随着全网信息的更新发生改变,如果需要实现负载分担功能,在网络控制层也能够完成,并且其相对应用层实现的负载分担具备效率高、延迟低的特点。
4.算力管理层
算力管理层,顾名思义是主要负责算力管理的功能层,包括负责异构算力资源的注册、建模,以及为上层算力的交易行为提供支撑等功能,如图3-5所示。异构算力资源从芯片的专业领域上划分,可分为CPU、GPU、NPU等,中央处理单元(Central Processing Unit,CPU)用于处理一般的计算,图形处理单元(Graphics Processing Unit,GPU)专门用于处理图像计算,神经网络处理单元(Neural Network Processing Unit,NPU)主要用于加速处理神经网络相关计算等,这些不同类型的算力资源要通过网络控制层发布出去,需要在算力管理层进行注册,所谓注册就是如何使网络层能够感知到算力资源并进行合适量化。另外,如何合理调度不同类型的处理器资源,使它们能够处理到最适合自身的任务,需要通过算力管理层来统一建模,再结合网络控制层的调度,从而完成异构算力资源的各司其职,物尽其用。
图3-5 算力管理层功能关系图
算力管理层还需要负责支撑算力的交易行为,算力网络中的算力服务与交易依托区块链的去中心化、低成本、保护隐私的可信算力交易平台,算力管理层负责区块链功能的管理。当算力使用者需要使用算力时,通过算力交易平台在算力管理层进行合约的签订与计费,记录在区块链中,并完成分布式保存。因此,算力管理层在整个算力网络中是一个分布式部署的架构,在算力交易过程中,算力的贡献者与算力的使用者分离,通过可拓展的区块链技术和容器技术,整合算力贡献者的零散算力,为算力使用者提供经济、高效、去中心化的算力服务。
5.算力资源层和网络转发层
算力资源层和网络转发层在算力网络中以算网一体的方式合并设置,并需要结合网络中计算处理能力与网络转发能力的实际情况和应用效能,实现各类计算、存储资源的高质量传递和流动,如图3-6所示。
图3-6 算力资源层/网络转发层功能关系图
算力资源层负责维护各类异构算力资源,狭义上包括CPU、GPU、NPU等以计算能力为主的处理器,广义上包括具备存储能力的各类独立存储或分布式存储,以及通过操作系统逻辑化的各种具备数据处理能力的设备。从设备层面来看,算力资源层不仅包含服务器、存储等常用的数据中心计算设备,在未来万物互联的场景中还包括汽车、手持终端、无人机等可以提供算力的端侧设备。
网络转发层属于SDN网络架构中的数据平面,负责各类网络设备的部署,通过安装网络控制层下发的转发表项来指导数据报文的转发。
算力资源和网络转发层属于资源层面,本身只负责算力资源和网络设备的集合,以及负责各类设备物理架构上的整合,而对于资源和设备的管理及应用,需要通过算力管理层和服务编排层来指导,在整个算力网络系统中作为基础设施层面发挥作用。
在算力网络架构中,网络控制层与服务编排层最大限度地兼容目前产业已实现的和规划中的SDN与NFV技术路线,并保持SDN与NFV两者各自的发展方向不变。在此基础上,通过I42接口,拉通网络控制与服务编排之间的能力,实现SDN与NFV的协同,并将Fabric网络架构由数据中心内向广域网延伸,达到Metro Fabric的目标架构。同时,在整个架构中引入算力管理层,主要解决对异构算力资源的管理、建模和交易等功能,使网络算力信息通过算力管理层与网络控制层进行互通。算力管理层通过I43接口与服务编排层交互虚拟机、容器等虚拟资源信息,实现在硬件计算资源上的部署方式。网络转发层与算力资源层在本架构中合并描述,以体现未来网络发展中算网一体的发展趋势。
在算力网络架构中,还实现了算力资源提供者、算力服务提供者和算力服务消费者的个性化针对性服务。算力资源提供者主要通过算力管理层的能力开放,算力服务提供者和算力服务消费者主要通过服务编排层和服务提供层的能力开放。面向具体业务的提供者和消费者,算力网络可提供云化资源,面向算力资源的提供者和消费者,通过构建算力管理层,使算力网络能够满足算力共享与算力交易需求,并对算力实现更精细化的调控。
此外,在算力网络中,网络能力以SRv6为底座,兼容SR-BE和SRTE两种模式,主要依赖基于网络分布式的可编程能力。业务能力以云原生为底座,兼容虚拟化等其他模式,并向云化资源统一管控、服务治理Mesh化和应用服务Serverless化演进。