更新时间:2024-05-24 18:23:23
封面
版权信息
内容简介
前言
第1章 大数据与数据仓库概论
1.1 什么是数据仓库
1.2 数据仓库的演进历史
1.3 数据仓库技术
1.4 数据仓库基本架构
1.5 数据库和数据仓库的区别
1.6 学前导读
1.6.1 学习的基础要求
1.6.2 你将学到什么
1.7 本章总结
第2章 项目需求描述
2.1 前期调研
2.2 项目架构分析
2.2.1 在线教育数据仓库产品描述
2.2.2 系统功能结构
2.2.3 系统流程图
2.3 项目业务概述
2.3.1 采集模块业务描述
2.3.2 数据仓库需求业务描述
2.3.3 数据可视化业务描述
2.4 系统运行环境
2.4.1 硬件环境
2.4.2 软件环境
2.5 本章总结
第3章 项目部署的环境准备
3.1 Linux环境准备
3.1.1 安装VMware
3.1.2 安装CentOS
3.1.3 远程终端安装
3.2 Linux环境配置
3.2.1 网络配置
3.2.2 网络IP地址配置
3.2.3 主机名配置
3.2.4 防火墙配置
3.2.5 一般用户设置
3.3 Hadoop环境搭建
3.3.1 虚拟机环境准备
3.3.2 安装JDK
3.3.3 安装Hadoop
3.3.4 Hadoop分布式集群部署
3.4 本章总结
第4章 用户行为数据采集模块
4.1 日志生成
4.1.1 数据埋点
4.1.2 用户行为日志格式
4.1.3 安装MySQL
4.1.4 数据模拟
4.2 消息队列Kafka
4.2.1 安装ZooKeeper
4.2.2 ZooKeeper集群启动、停止脚本
4.2.3 安装Kafka
4.2.4 Kafka集群启动、停止脚本
4.2.5 Kafka topic相关操作
4.3 采集日志的Flume
4.3.1 Flume组件
4.3.2 安装Flume
4.3.3 采集日志Flume配置
4.3.4 Flume的拦截器
4.3.5 采集日志Flume启动、停止脚本
4.4 消费Kafka日志的Flume
4.4.1 日志消费层Flume配置
4.4.2 时间戳拦截器
4.4.3 日志消费层Flume启动、停止脚本
4.4.4 数据通道测试
4.5 采集通道启动、停止脚本
4.6 本章总结
第5章 业务数据采集模块
5.1 在线教育业务概述
5.1.1 在线教育业务流程
5.1.2 在线教育表结构
5.1.3 数据同步策略
5.1.4 数据同步工具选择
5.2 业务数据采集
5.2.1 业务数据模型梳理
5.2.2 安装DataX
5.2.3 安装Maxwell
5.2.4 全量数据同步
5.2.5 增量数据同步
5.3 数据采集流程总结
5.4 本章总结
第6章 数据仓库搭建模块
6.1 数据仓库理论准备
6.1.1 数据建模概述
6.1.2 关系模型与范式理论
6.1.3 维度模型
6.1.4 维度建模理论之事实表
6.1.5 维度建模理论之维度表
6.1.6 星形模型、雪花模型与星座模型
6.2 数据仓库建模实践
6.2.1 名词概念
6.2.2 为什么要分层
6.2.3 数据仓库构建流程
6.2.4 数据仓库开发规范
6.3 数据仓库搭建环境准备
6.3.1 安装Hive
6.3.2 Hive on Spark配置