(一)数据基础设施架构
数据作为数字经济发展的生产要素,数据基础设施的架构支持了数据价值化的功能。中国信息通信研究院在《数据基础设施白皮书2019》中针对数据基础设施给出如下定义:数据基础设施由基础设施层和数据管理层组成,其中基础设施层包括存储、计算、网络等硬件设施,数据管理层由操作系统、数据库系统及大数据系统组成,构成支撑数据存储及数据全生命周期管理的软件设施。(如图3-1)
图3-1 数据基础设施
在基础设施层,和传统的硬件设施不同,数据基础设施将引入多样性计算,从单一算力转变到多样性算力,通过匹配多样性数据,提高计算效率;存储也会从单一类型存储转变到多样性融合存储,形成融合处理基础,应对存储效率低、管理复杂的问题。在数据管理层,结合大数据系统和数据库系统提供的“采—存—算—管—用”全流程的软件支撑,从单一处理向多源数据智能协同、融合处理发展,应对更实时和智能的数据应用需求,加速实现数据价值。数据基础设施能够面向数据构建全方位的安全体系,保障数据端到端的安全和隐私合规,推动全社会的数据共享和开放,实现更大的价值创造。
1.融合架构
数据经济基础设施发展的趋势存在“一横一纵”两种融合架构。
横向融合是指数据全生命周期存储的融合,包括了如下环节。数据产生的第一环节是生产存储,用以支撑交易型的数据处理;第二环节则通过扩展至分析型存储来支撑核心的分析业务;第三环节利用备份存储进一步扩展分析场景;第四环节是主存增加混合云备份、分级等特性,实现冷数据上云。横向融合通过对生产存储叠加轻量化备份和管理特性,拓展存储场景,实现从热到冷的数据全生命周期存储整合。
纵向融合是指数据处理与数据存储的垂直优化,包括如下两个方面。第一,交易型数据处理与生产存储相融合,提升性能并增强可靠性;第二,数据分析与分析型存储融合,提高分析效率。纵向融合包含了存储、协议、算力、管理四个层面的融合内容:在存储层面,通过重定义存储架构,将块、文件、对象、分布式存储等多种存储服务融合,打通数据孤岛,解决多样性数据存储和共享问题;在协议层面,通过多协议融合技术,实现一份数据同时支持数据库、大数据、人工智能等多种业务的分析需求,节省数据无效流动时间,让分析更高效;在算力层面,通过将数据库、大数据、人工智能多引擎融合分析和多样性算力统一调度,降低海量数据处理难度,实现高效分析;在管理层面,通过将人工智能融入存储全生命周期管理,从资源规划、业务发放、系统调优、风险预测、故障定位等方面实现智能运维,以应对数千节点规模的复杂管理。
2.异构算力融合
异构算力即多样性算力。因为人工智能和机器学习的规模使用,数字经济基础设施必须支持以GPU、FPGA和ARM为代表的异构计算,匹配多样性数据,为中心、云和边缘提供更高性能的计算资源,使数字经济基础设施中的应用得以高效运行。
3.存算融合
存算融合是指将一些数据直接在存储控制器中的盘内进行计算后,将计算结果返回给计算层,这样可以最大限度地减少在存储层和计算层之间移动的数据量,提升计算效率。
4.数据库存储融合
数据库存储融合指采用计算—存储分离部署的架构,数据库计算和存储资源可以灵活配置,根据业务需要各自独立进行弹性扩展,使得资源匹配更精准、更合理,大幅提升资源利用率。
5.协议融合
协议融合是指打破数据在生命周期中以不同协议存放在不同地方的协议限制,将数据在逻辑上集中。这样可以支持多种应用和数据源的接入,并通过开放式数据接入框架,灵活扩展接入第三方数据源。
6.格式融合
格式融合是指为上层应用和客户端提供工业界标准接口,能够支持多种服务,如块存储服务、文件存储服务、对象存储服务和大数据存储服务。这样可以消除传统数字经济基础设施中因多类型存储系统烟囱式构建而形成应用孤岛,实现一份数据同时满足数据库、大数据、人工智能等多种业务的分析需求。