2.2 大数据技术
2.2.1 大数据参考架构
GB/T 35589—2017《信息技术 大数据 技术参考模型》给出了大数据参考架构和定义,如图2-7所示。
图2-7 大数据参考架构
大数据参考架构涉及以下概念。
1)大数据参考架构。大数据架构是一种用作工具便于对大数据内在的要求、设计结构和运行进行开放性探讨的高层概念模型。
2)系统协调者。大数据参考架构中的一种逻辑功能构件,定义所需的数据应用活动并将它们整合到可运行的垂直系统中。系统协调者可以是人、软件或者二者的组合。
3)数据提供者。大数据参考架构中的一种逻辑功能构件,将新的数据或信息引入大数据系统。
4)大数据应用提供者。大数据参考架构中的一种逻辑功能构件,执行数据生命周期操作,以满足系统协调者定义的需求以及安全和隐私保护需求。
5)大数据框架提供者。大数据参考架构中的一种逻辑功能构件,建立一种计算框架,在此框架中执行转换应用,同时保护数据完整性和隐私。
6)数据消费者。大数据参考架构中的一种逻辑功能构件,是使用大数据应用提供者提供的应用的末端用户或其他系统。
大数据参考架构是一个通用的大数据系统概念模型,它表示通用的、实现无关的大数据系统的逻辑功能构件及构件之间的互操作接口,可以作为开发各种具体类型大数据应用系统架构的通用技术参考框架。
大数据参考架构采用构件层级结构来表达大数据系统的高层概念和通用的构件分类法。
从构成上看,大数据参考架构是由一系列在不同概念层级上的逻辑构件组成的。这些逻辑构件被划分为三个层级,从高到低依次为角色、活动和功能组件。
五个主要的模型构件代表在每个大数据系统中存在的不同技术角色:系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者。另外两个非常重要的模型构件是安全和隐私与管理,代表能为大数据系统其他五个主要模型构件提供服务和功能的构件。其中管理角色的功能尤其重要,被集成在任何大数据解决方案中。
大数据参考架构体系中的管理角色可以归类为系统管理、大数据管理和大数据治理这三个活动组。
1)系统管理。系统管理活动组包括调配、配置、软件包管理、软件管理、备份管理、能力管理、资源管理和大数据基础设施的性能管理等活动。
2)大数据管理。大数据管理涵盖了大数据生存周期中所有的处理过程,其活动和功能是验证数据在生命周期的每个过程是否都能够被大数据系统正确地处理。
3)大数据治理。大数据治理负责定义在数据全生存周期中如何访问和处理数据,从而实现更广泛的策略和指引,以确保数据管理的角色和责任的执行、维护数据的合规性、满足数据质量要求、标准化数据管理和利用、降低数据管理的低效率和成本、通过定义和验证数据访问要求来提高数据安全性、建立数据访问的过程以提高性能等目标的实现。