3.2 计算资源池设计
计算能力作为医院数据中心最核心的基础设施之一,是整个医院信息化建设的基础。
3.2.1 计算需求分析
在医疗行业,医院信息化不断深入,医疗业务持续性升级完善,以及大数据和AI技术驱动的医疗转型,推动了疾病预测、精准医疗、个性化药物、医疗知识图谱、医学影像分析等的智慧医疗。医院数据中心应该从实际应用出发,逐步提升中心整体计算力,同时兼顾云计算、大数据、人工智能对于计算的生态兼容性要求,应重点关注以下几个方面:
● 支持高性能并发低功耗;
● 支持图形处理器(graphics processing unit,GPU)、神经网络处理器(neural network processing unit,NPU)芯片的多场景 AI应用;
● 支持高带宽内存吞吐;
● 支持高性能网络连接能力;
● 支持性能、寿命、稳定兼顾的存储技术。
因此,针对不同的应用场景,采用相应场景化的服务器提供对应的计算能力,才能满足医院数据中心综合建设需求。
(1)高并发业务需求
医院数据中心的核心业务应用,如事务性联机事务处理过程(on-line transaction processing,OLTP)业务,对于计算能力要求较高,通用架构处理器应具备在多样化应用场景下的高性能要求。例如,在全院临床数据中心(clinical data repository,CDR)分布式数据系统、管理运营大数据分析、全院影像平台、移动医疗、互联网医疗等应用场景中,信息系统主要采用并发处理来提高系统性能,保证医生实际使用效果和体验。同时,全院级数据治理、大数据分析、移动医疗等信息系统的开发通常采用企业级应用开发架构,对并发性有较好的支持。因此,对并发性的满足是新一代医院数据中心最基本要求。
在服务器层面需要支持虚拟化弹性服务提供的负载均衡,提升并发业务响应能力;在CPU层面需要有更高的内核数应对并发;不同计算平台,均需要对JAVA等开发语言有良好的支持和优化。
(2)云计算技术需求
应用创新速度加快,应用种类和数量繁多,云边端协同成为主流,医院信息化场景中,传统的单一架构难以满足要求,对计算平台提出了新的挑战,驱动计算架构向多样性发展。新一代医院数据中心需要考虑云计算和边缘计算的协同。
在医疗检查检验、智能辅助诊断方面,未来超70%的数据和应用将在终端和边缘产生与处理。边缘和移动设备受场景约束,处理能力和性能提升受到限制,需要与云协同。随着5G的规模部署,网络传输时延、带宽、连接密度均得到数量级的提升,为云边端协同提供了基础保障。
医院数据中心中针对云边端协同进行基础支持,如云计算能力、终端和边缘智能计算能力、5G通信能力等。
(3)多种虚拟化计算资源支持需求
医院是一个多元化的应用环境,有很多专业化应用,这些信息系统存在一定的计算技术差异性要求。医院数据中心应提供不同的计算资源池来满足不同信息系统的要求,能够支持KVM虚拟化池、VMware虚拟化池、Hyper-V资源池、裸金属资源池等计算资源池;支持镜像池,存放共有镜像和私有镜像;支持PaaS资源池,承载各类服务实例等。
(4)人工智能需求
随着人工智能在医院运营决策、辅助诊断、科研教学、智能安防等诸多领域应用,医院数据中心需要使用大量的GPU、NPU 等计算单元来满足业务需求。
同时,移动化智能辅助诊断、可穿戴检测、智能医疗供应链、智能摄像头等广泛部署应用,对终端设备的计算能力提出新的需求,使得通用处理器加上深度学习加速芯片成为典型的边缘计算架构。
因此,新一代医院数据中心的设计需要充分考虑GPU、FPGA的平台化支持,同时要考虑平台和终端的人工智能协同计算需求,加强医院边缘计算能力,提升整个医院人工智能应用水平。
(5)大数据计算需求
医院数据中心需要覆盖结构化、半结构化、非结构化的各类医疗临床与管理数据,以及实现高质量的数据汇聚、清洗、融合,并构建互联互通基础架构。从数据应用特点和全生命周期数据治理角度看,新一代医院数据中心需要支持分布式计算架构以满足不同业务场景需求。
分布式计算需要从服务器、存储、网络、操作系统、数据库等多方面进行综合考虑,保证分布式系统稳定安全高效运行。
(6)内存计算能力需求
在医院运营和临床大数据应用中,如患者分析、临床数据检索、临床数据建模、智能数据校验等,越来越多的应用需要基于临床多维度复杂查询和数据分析能力,并在多维度数据集的基础上进行相关的数据挖掘工作,对计算设备的实时处理能力提出了非常大的挑战。目前主要是采用内存计算来提升系统性能。
同时,医院信息化互联互通建设,使得数据互操作量激增,海量数据交换与处理成为未来数据中心的主要负载,计算平台开始应用内存计算技术。
内存是数据处理中转站,内存访问性能在一定程度上决定整个系统的处理效率。以科学研究、深度学习、内存数据库为代表的数据密集型应用的基本特征是在处理过程中需要对数据进行频繁地转存和读写,对内存访问带宽的依赖性十分明显。如果内存访问带宽低于CPU带宽,会导致CPU花费大量时间等待数据,这种数据滞后会导致系统性能大幅度下降。
因此,新一代医院数据中心应尽量考虑高带宽的内存计算解决方案。通过采用高主频、宽总线、多通道的内存接口技术来提高处理器内存访问性能,满足数据密集型应用的业务诉求。
(7)高算力与低功耗需求
医疗行业呈现医院数据具有格式多样性(如语音、文本、医疗影像等)以及海量(如高质量的治理与分析应用)的特点,新一代医院数据中心需要满足绿色低功耗和高算力的计算需求。
医院数据中心的规划发展普遍未能跟上医院信息化业务的需求增长,面对不断增加的医院业务处理要求,只有不断增加高算力资源来支持。与此同时,随着算力增加,数据中心的能源消耗直线上升。医院数据中心无论从空间规模、能源规划等方面均相对有限,因此“低功耗、高算力”是数据中心必须考虑的技术要求。
3.2.2 关键计算技术
3.2.2.1 RAS技术
RAS(reliability、availability and serviceability),即可靠性、可用性、可维护性。数据中心的关键任务就是通过保证应用的稳定运行、数据的完整可用,从而保证业务过程的有效和连续。RAS技术通过冗余、容错等手段,有效规避单体组件自身缺陷带来的故障风险,最大化保障整体可用性和保持数据完整性。以下是RAS的三个主要目标:
(1)提升系统可运行时间
系统可靠性可通过平均无故障时间(MTTF)、年崩溃率(ACR)或年服务率(ASR)等指标来度量。一个可靠的系统可以保持更长的运行时间。
(2)减少非计划停机时间
再完备的运行计划也无法完全避免由于自然灾害、停电、恶意攻击等导致的系统中断。非计划停机发生时,平均修复时间(MTTR)是度量系统可维护性的主要指标,一个维护性好的系统可以快速从故障中恢复正常运行。
(3)维护数据完整性
通过若干机制防止数据的损坏和纠正数据的错误,确保数据问题控制在许可范围内。
3.2.2.2 虚拟化技术
虚拟化技术通过整合数据中心IT基础资源,精简运维操作,提高管理效率,达到提高物理资源利用率和降低整体拥有成本的目的。同时,基于先进的云管理理念,建立安全的、可审核的数据中心环境,为业务部门提供成本更低、服务水平更高的基础IT架构,并对业务部门的需求做出快速响应。
虚拟机与物理服务器类似,每台虚拟机都是一个完整的主机系统,它具有CPU、内存、网络、存储和BIOS,操作系统和应用程序在虚拟机中的运行方式与在物理服务器上没有任何区别。主要的区别在于虚拟机并不是由电子元器件组成,而是由一组软件定义文件构成的。
虚拟机具有如下特征:①兼容小型机、标准x86服务器等不同类型的设备;②可访问物理服务器的所有资源(如CPU、内存、磁盘、网络和外围设备);③可与其他虚拟机共用同一台物理服务器,从而达到充分利用硬件资源的目的;④默认情况,虚拟机之间完全隔离,可以实现安全的数据处理、网络连接和数据存储;⑤虚拟机中部署的应用程序可以封装在虚拟机镜像文件中,通过简单的文件复制便可实现应用程序的部署、备份以及还原;⑥具有可移动的灵巧特点,可以便捷地将整个虚拟机系统(包括虚拟硬件、操作系统和配置好的应用程序)在不同的物理服务器之间进行迁移,甚至还可以在虚拟机正在运行的情况下进行迁移;⑦可将分布式资源管理与高可用性相结合,从而为应用程序提供比静态物理服务器更高的服务优先级别;⑧可即插即用的虚拟机(包含整套虚拟硬件、操作系统和配置好的应用程序)构建和分发,从而实现业务应用快速部署。
3.2.2.3 裸金属技术
裸金属服务器(bare metal server)类似云平台上的专属物理服务器,在拥有弹性灵活的特性上,兼具高性能的计算能力。裸金属服务器的计算性能与传统物理机无差别,并具有安全物理隔离的特点。裸金属服务器与物理机、虚拟机的对比如表3-1所示。其中,Y表示支持,N表示不支持,N/A表示不涉及。
表3-1 裸金属服务器、物理机、虚拟机特性对比
裸金属服务器为数据中心的核心数据库、关键应用系统、高性能计算业务提供卓越的计算性能及数据安全,并结合云资源的弹性优势,实现发放灵活,按需使用。
3.2.2.4 弹性伸缩服务
弹性伸缩服务(auto scaling)可根据医院的业务需求和预设策略,自动调整计算资源,使云服务器数量自动随业务负载增长而增加,随业务负载降低而减少,保证业务平稳健康运行。医院业务有着明显的峰谷特征,如何及时有效地调整峰谷期的计算资源配置,在保证业务有效的前提下更优化计算资源的使用,是医院信息化建设面临的关键任务。弹性伸缩以智能自动调度系统为核心,自动检测发现异常,根据预设策略(定时、周期、动态)自动伸缩业务容量。通过使用弹性伸缩服务可以使医院有限的IT资源得到最大化利用。同时,弹性伸缩协助故障自动愈合,通过程序方式解决人工难于应对的运维问题。
弹性伸缩的特点如下:
● 随需应变:根据需求分配资源,无需提前预测需求规模,可实时应对需求变化;
● 自动化:无需人工干预,自动创建和释放主机实例,自动配置负载均衡和访问白名单;
● 策略丰富:可配置定时、动态、自定义、固定等多种模式;
● 智能化:智能调度云计算资源,应对各种复杂的业务场景和多变的业务载荷。
3.2.2.5 镜像技术
镜像服务的主要功能如下:
● 提供常见的主流操作系统公共镜像;
● 由现有运行的云服务器或由外部导入的方式来创建私有镜像;
● 管理公共镜像。例如:按操作系统类型/名称/ID搜索,查看镜像ID、系统盘大小等详情,查看镜像支持的特性(用户数据注入、磁盘热插拔等);
● 管理私有镜像。例如:修改镜像属性、共享镜像、复制镜像等;
● 通过镜像创建云服务器实例。
3.2.3 计算资源池设计
软件定义计算(software defined compute,SDC),是将数据中心内CPU、GPU、NPU、内存、I/O适配器、FPGA等各类计算硬件以资源池的形式提供给用户,并根据应用需要灵活地进行计算资源调配。典型的软件定义计算架构如图3-2所示。
SDC将服务器物理资源抽象成逻辑资源,一台物理服务器变成多台相互隔离的虚拟服务器,不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O、GPU、NPU等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理。同时,SDC还将这种能力扩展到物理服务器及容器,实现物理服务器、虚拟机、容器的统一管理和调度,提供自动化的虚拟机、裸金属、备份、镜像、弹性伸缩与容灾等云服务。
图3-2 软件定义计算架构图
基于SDC实现对虚拟化、物理机、容器等各类资源的统一管理,并构建各类计算资源池。管理员根据业务负载特点和资源需求,动态分配和调整业务系统需要的资源池,如构建运行核心业务的裸金属数据库集群、构建运行医院业务应用和集成平台的虚拟化资源池、构建开展数据分析和人工智能的大数据资源池,以及构建“互联网+”创新业务的容器资源池。
SDC能够有效提高现有IT基础架构的利用率,避免计算资源过度配置;同时,自动获取、弹性伸缩的计算资源,帮助医院打造可靠、安全、灵活、高效的应用环境,提升数据中心运维效率及应用上线速度。