2.13 FusionInsight_自己动手做大数据系统（第2版）-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

关于Hadoop大数据系统的发行版，国内市场占有率比较高的是华为发布的FusionInsight大数据系统。其对应的架构如图2-15所示。

从图2-15的架构图中可以看到，FusionInsight HD对开源组件进行了封装和增强。FusionInsight HD包含了Manager和众多组件，分别提供了如下功能：

•　Manager作为运维系统，为FusionInsight HD提供了高可靠、安全、容错、易用的集群管理能力，支持大规模集群的安装部署、监控、告警、服务管理、健康检查、问题定位、升级和打补丁等系统管理功能，以及权限管理、审计、用户管理等安全管理功能。

图2-15　FusionInsight大数据系统的架构图

•　Hue提供了FusionInsight HD应用的图形化用户Web界面。Hue支持展示多种组件，目前支持HDFS、YARN/MapReduce、Hive和Solr。

•　Loader可用来实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件，是一个数据加载工具。其同时提供了REST API接口，供第三方调度平台调用。

•　其他组件中还有日志采集工具Flume。Flume是一个分布式、可靠和高可用的海量日志聚合系统，其支持在系统中定制各类数据发送方，可用于收集数据；同时，Flume具有对数据进行简单处理，并写入各种数据接受方（可定制）的能力。

•　FTP Server通过通用的FTP客户端、传输协议提供对HDFS进行基本的操作，如文件上传、文件下载、目录查看、目录创建、目录删除、文件权限修改等。

•　Hive是建立在Hadoop基础上的开源数据仓库，提供了类似于SQL的Hive Query Language（也可缩写为HQL）来操作结构化数据存储服务和基本的数据分析服务。

•　在图2-15中，YARN资源调度用来进行分布式计算，主要使用MapReduce分布式计算模型。MapReduce提供了快速并行处理大量数据的能力，是一种分布式数据处理模式和执行环境。

•　Spark是基于内存进行计算的分布式计算框架。

•　Kafka是一个分布式的、分区的、多副本的实时消息发布和订阅系统，提供了可扩展、高吞量、低延迟、高可靠的消息分发服务。

•　YARN是一个资源管理系统。它是一个通用的资源模块，可以为各类应用程序进行资源管理和调度。

•　HDFS（Hadoop分布式文件系统，Hadoop Distributed File System），提供了高吞吐量的数据访问，适合大规模数据集方面的应用。

•　HBase提供了海量数据存储功能，是一种构建在HDFS之上的分布式、面向列的存储系统。

•　ZooKeeper提供了分布式、高可用的协调服务能力，以帮助系统避免单点故障，从而建立可靠的应用程序。

企业选择FusionInsight HD通常有以下几方面原因：

•　华为基于自身在运营商及金融等行业长期的产品线优势，在开发FusionInsight HD产品的过程中，对于国内金融行业的安全等级保护做了有针对性的优化设计，从而提高了产品的竞争力。

•　华为依靠其强大的产品研发团队，在开源社区的贡献度一直非常高，其对应的技术成果也同步集成到了FusionInsight HD的产品体系中。

•　华为的售后服务是本土化的，其响应速度和服务质量都有可靠的保障。

关于FusionInsight HD，华为官网同样提供了详细具体的操作步骤，这里不做重复说明，详情可以参考其官网。

本周热推：