上QQ阅读APP看书,第一时间看更新
第3章 Hadoop生态圈与数据仓库
本章介绍Hadoop及其生态圈中的组件,并讨论基于Hadoop构建数据仓库的必要性和可行性。随着云计算、大数据等名词的流行,涌现出一大批相关的技术,其中Hadoop是较早出现的一种分布式架构,得到了大量的应用。本章先说明大数据和Hadoop的基本概念,之后介绍HDFS、MapReduce、YARN三个基本的Hadoop组件。除了基本组成部分,Hadoop生态圈中还有很多其他的工具组件,它们可以提供创建数据仓库所需的大部分功能,后面章节将会陆续讲述这些组件的概念和功能。本章主要介绍Spark分布式计算框架。在本章最后,讨论数据仓库与分布式计算的关系,以及与传统数据仓库架构所对应的Hadoop工具。
希望读者通过阅读本章的内容,对大数据、分布式计算、Hadoop及其生态圈的概念有一个基本的认识,最重要的是理解为什么要使用Hadoop建立数据仓库。