自己动手做大数据系统(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.12 CDH

开源大数据系统会根据业务需要选择每一个大数据组件,包括具体的版本适配、安装与配置的一致性。是否可以自动化地集成通用的组件包,形成可以方便安装与配置的交互式界面方式,以进行大数据系统的搭建配置呢?答案是肯定的。在业界,Hadoop大数据系统发行版流行度最高的是Cloudera公司发行的CDH(Cloudera's Distribution Including Apache Hadoop)大数据系统。CDH通过CM(Cloudera Manager)来进行管理和运维工作,实现大数据系统的高效部署管理,具体架构如图2-14所示。

图2-14 CDH模块的架构图

图2-14中的架构图主要由如下几部分组成:

• Server(服务器):它是Cloudera Manager的核心,主要用于管理Web Server和应用逻辑(可用于安装软件、配置、开始和停止服务,以及管理服务运行的集群)。

• Agent(代理):代理程序安装在每台主机上。可通过脚本来启动和停止主机进程、部署配置、触发安装及监控主机。

• Database(数据库):存储配置和监控信息。通常可以在一个或多个数据库服务器上运行多个逻辑数据库。例如,Cloudera服务器的管理器服务和监视服务,后台程序就会使用不同的逻辑数据库。

• Cloudera Repository:由Cloudera Manager提供的软件分发库。

• Clients(客户端):提供了一个与Server交互的接口。

Cloudera通过以上架构实现了CM对CDH的高效管理和具体的运维开发支持。企业一般选择CDH大数据系统有以下几方面原因:

• CDH基于稳定版的Apache Hadoop,并应用了最新的Bug修复或者补丁更新。Cloudera常年坚持季度发行Update版本,年度发行Release版本,更新速度比Apache官方快。而且在实际使用过程中,CDH表现稳定,并没有引入新的问题,各组件的版本匹配度可以确保产线稳定。

• Cloudera官方网站上的安装、升级文档非常详细,针对性很强。这大大降低了运维人员的使用门槛。

• CDH支持多种方式安装。联网安装、在本地安装均比较方便,并且安装完成后支持滚动升级。其以高效率、自动化的部署来提高运维管理效率。

• 相对于开源的Hadoop大数据系统,CDH在安全管理和数据治理方面的功能有很大改进,而这部分也是很多企业大数据平台构建的难点。

关于具体的安装与配置,其发行版的安装过程相对于开源版本的安装过程要自动和方便得多。其官网有详细的安装文档,因此这里不做过多介绍(详情可以参考CDH官网)。