2.6 ZooKeeper和HBase
前面介绍过,Hadoop的HDFS是为了解决大数据系统中统一数据的物理存储而出现的。使用HDFS可以把各种业务数据集中到统一的分布式文件处理系统中;但是这些已经落地的来自各个地方、各种业务类型的数据是杂乱无章的,需要进一步进行基于业务逻辑的梳理,从而生成满足业务需要的聚合统计指标表。这一过程通过Hive实现。Hive实际使用类SQL语句来定义数据流向,而最终的数据计算和存储是通过Hadoop的分布式计算和存储来实现的。这种海量数据的批量数据计算产生了业务所使用的查询表。但是,Hive无法满足数据的低延迟快速查询需求,这时就需要使用HBase来对应。HBase针对海量数据进行了底层索引逻辑存储设计的优化。
HBase架构如图2-7所示。
HBase与Hive相同的地方是,其也依赖Hadoop的HDFS作为底层存储;不同的是,HBase会基于HDFS在存储设计上做优化,以满足海量数据的快速查询需求。HBase数据库又叫NoSQL数据库,是一种基于列式存储的分布式数据库,这样的设计特别适合针对部分列进行查询的场景。由于是分布式数据库,因此分布式节点的数据一致性需要有可靠的保障机制设计。HBase使用的是ZooKeeper工具来确保分布式数据库中各个节点的状态一致。所以,安装HBase工具需要先安装ZooKeeper工具。
图2-7 HBase架构图
ZooKeeper对应的安装及配置信息如下。
2.6.1 ZooKeeper安装文件的准备
ZooKeeper的安装文件:可以在Apache官网下载zookeeper-3.4.6.tar.gz。
2.6.2 ZooKeeper的安装及配置
首先,在master节点上进行安装和配置,然后复制至各安装节点:
例如,在slave02节点上对应的myid使用cat myid命令查看并确认对应的ID数字是否正确。
2.6.3 ZooKeeper运行验证
slave02为leader角色,会显示Mode:leader。
slave01为从节点:会显示Mode:follower。
HBase依赖于Hadoop,在ZooKeeper安装完成后,下面进行HBase的安装及配置。
2.6.4 HBase安装文件的准备
从HBase官网下载对应的安装包hbase-1.4.0-bin.tar.gz。
2.6.5 HBase的安装及配置
首先在master节点上进行安装和配置,然后复制到各安装节点: