上QQ阅读APP看书，第一时间看更新

第3章 Hadoop生态圈与数据仓库

本章介绍Hadoop及其生态圈中的组件，并讨论基于Hadoop构建数据仓库的必要性和可行性。随着云计算、大数据等名词的流行，涌现出一大批相关的技术，其中Hadoop是较早出现的一种分布式架构，得到了大量的应用。本章先说明大数据和Hadoop的基本概念，之后介绍HDFS、MapReduce、YARN三个基本的Hadoop组件。除了基本组成部分，Hadoop生态圈中还有很多其他的工具组件，它们可以提供创建数据仓库所需的大部分功能，后面章节将会陆续讲述这些组件的概念和功能。本章主要介绍Spark分布式计算框架。在本章最后，讨论数据仓库与分布式计算的关系，以及与传统数据仓库架构所对应的Hadoop工具。

希望读者通过阅读本章的内容，对大数据、分布式计算、Hadoop及其生态圈的概念有一个基本的认识，最重要的是理解为什么要使用Hadoop建立数据仓库。