本书主要内容
本书从企业的实际需求出发,完整地介绍了构建一个真实可用、安全可靠的企业级大数据平台所需要运用的知识体系,并详细地描述了构建企业级大数据平台的设计方案和实施步骤。
本书逻辑上可分为3大部分,共8章,每个章节循序渐进:
· 第一部分(第1、2章)描述了企业级大数据平台的需求和能力。
· 第二部分(第3~5章)着重讲述了如何去搭建并配置一个大数据平台,以及如何构建非常重要的平台安全方案。
· 第三部分(第6~8章)以实战的形式讲解如何以Java编码的方式实现平台的基础管理功能,以提升其易用性与可用性。
具体各章内容如下:
第1章 阐述企业级大数据平台的重要性,并解释了为什么需要构建一个统一的企业级大数据平台。接着介绍作为一个企业级大数据平台应当具备的能力,并解释其原因。
第2章 介绍通过Hadoop生态体系去构建一个企业级大数据平台可以使用的技术栈,如HDFS、HBase、Spark等,并一一介绍了它们的核心概念。
第3章 介绍集群管理工具Ambari,并站在集群服务器的角度分类解释如何去设计一个Hadoop集群,详细描述了如何使用Ambari来安装、管理和监控一个Hadoop集群。
第4章 介绍企业级大数据平台中非常重要的安全部分。首先阐述了企业级大数据平台面临的一些安全隐患,接着展示了一套初级解决方案并介绍了如何使用Knox和Ranger解决访问控制和数据授权与管理的问题。
第5章 着重介绍Hadoop服务的安全方案,并说明如何通过Kerberos协议等一系列措施来保障Hadoop集群的安全。
第6章 阐述大数据平台在易用性上的一些遗留问题,接着介绍如何通过CAS实现平台的单点登录功能,最后描述如何使用Java程序实现统一的用户管理服务。
第7章 简单阐述服务化的重要性以及如何将大数据平台管理端的功能封装成RESTful服务。首先介绍了如何使用Spring-Boot快速搭建一套RESTful服务的程序框架,接着详细描述如何实现Kerberos用户查询、Hive数据仓库查询和元数据查询等一系列RESTful服务。
第8章 介绍如何使用Java程序实现Spark的任务提交与任务调度功能。首先着重介绍使用Java程序实现Spark任务提交到YARN的三种方式,接着描述如何通过Quartz实现任务调度功能。