自己动手做大数据系统(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.13 FusionInsight

关于Hadoop大数据系统的发行版,国内市场占有率比较高的是华为发布的FusionInsight大数据系统。其对应的架构如图2-15所示。

从图2-15的架构图中可以看到,FusionInsight HD对开源组件进行了封装和增强。FusionInsight HD包含了Manager和众多组件,分别提供了如下功能:

• Manager作为运维系统,为FusionInsight HD提供了高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、服务管理、健康检查、问题定位、升级和打补丁等系统管理功能,以及权限管理、审计、用户管理等安全管理功能。

图2-15 FusionInsight大数据系统的架构图

• Hue提供了FusionInsight HD应用的图形化用户Web界面。Hue支持展示多种组件,目前支持HDFS、YARN/MapReduce、Hive和Solr。

• Loader可用来实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件,是一个数据加载工具。其同时提供了REST API接口,供第三方调度平台调用。

• 其他组件中还有日志采集工具Flume。Flume是一个分布式、可靠和高可用的海量日志聚合系统,其支持在系统中定制各类数据发送方,可用于收集数据;同时,Flume具有对数据进行简单处理,并写入各种数据接受方(可定制)的能力。

• FTP Server通过通用的FTP客户端、传输协议提供对HDFS进行基本的操作,如文件上传、文件下载、目录查看、目录创建、目录删除、文件权限修改等。

• Hive是建立在Hadoop基础上的开源数据仓库,提供了类似于SQL的Hive Query Language(也可缩写为HQL)来操作结构化数据存储服务和基本的数据分析服务。

• 在图2-15中,YARN资源调度用来进行分布式计算,主要使用MapReduce分布式计算模型。MapReduce提供了快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。

• Spark是基于内存进行计算的分布式计算框架。

• Kafka是一个分布式的、分区的、多副本的实时消息发布和订阅系统,提供了可扩展、高吞量、低延迟、高可靠的消息分发服务。

• YARN是一个资源管理系统。它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。

• HDFS(Hadoop分布式文件系统,Hadoop Distributed File System),提供了高吞吐量的数据访问,适合大规模数据集方面的应用。

• HBase提供了海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。

• ZooKeeper提供了分布式、高可用的协调服务能力,以帮助系统避免单点故障,从而建立可靠的应用程序。

企业选择FusionInsight HD通常有以下几方面原因:

• 华为基于自身在运营商及金融等行业长期的产品线优势,在开发FusionInsight HD产品的过程中,对于国内金融行业的安全等级保护做了有针对性的优化设计,从而提高了产品的竞争力。

• 华为依靠其强大的产品研发团队,在开源社区的贡献度一直非常高,其对应的技术成果也同步集成到了FusionInsight HD的产品体系中。

• 华为的售后服务是本土化的,其响应速度和服务质量都有可靠的保障。

关于FusionInsight HD,华为官网同样提供了详细具体的操作步骤,这里不做重复说明,详情可以参考其官网。