更新时间:2019-01-02 08:00:36
封面
版权信息
推荐序一
推荐序二
推荐序三
作者简介
前言
第1章 ODPS 概述
1.1 引言
1.2 初识ODPS
1.2.1 背景和挑战
1.2.2 为什么做ODPS
1.2.3 ODPS是什么
1.2.4 ODPS做什么
1.3 基本概念
1.3.1 账号(Account)
1.3.2 项目空间(Project)
1.3.3 表(Table)
1.3.4 分区(Partition)
1.3.5 任务(Task)、作业(Job)和作业实例(Instance)
1.3.6 资源(Resource)
1.4 应用开发模式
1.4.1 RESTful API
1.4.2 ODPS SDK
1.4.3 ODPS CLT
1.4.4 管理控制台
1.4.5 IDE
1.5 一些典型场景
1.5.1 阿里金融数据仓库
1.5.2 CNZZ数据仓库
1.5.3 支付宝账号影响力圈
1.5.4 阿里金融水文衍生算法
1.5.5 阿里妈妈广告CTR预估
1.6 现状和前景
1.7 小结
第2章 ODPS入门
2.1 准备工作
2.1.1 创建云账号
2.1.2 开通ODPS服务
2.2 使用管理控制台
2.3 配置ODPS客户端
2.3.1 下载和配置CLT
2.3.2 准备dual表
2.3.3 CLT运行模式
2.3.4 下载和配置dship
2.3.5 通过dship上传下载数据
2.4 网站日志分析实例
2.4.1 场景和数据说明
2.4.2 需求分析
2.4.3 数据准备
2.4.4 创建表并添加分区
2.4.5 数据解析和导入
2.4.6 数据加工
2.4.7 数据分析
2.4.8 自动化运行
2.4.9 应用数据集市
2.4.10 结果导出
2.4.11 结果展现
2.4.12 删除数据
2.4.13 解决方案:采云间
2.5 获取帮助
2.6 小结
第3章 收集海量数据
3.1 dship工具
3.2 收集Web日志
3.2.1 场景和需求说明
3.2.2 问题分析和设计
3.2.3 实现说明
3.2.4 进一步探讨
3.2.5 为什么这么难
3.2.6 解决方案:SLS
3.3 MySQL数据同步到ODPS
3.3.1 场景和需求说明
3.3.2 问题分析和实现
3.3.3 进一步探讨
3.4 下载结果表
3.5 小结
第4章 使用SQL处理海量数据
4.1 ODPS SQL是什么
4.2 入门示例
4.2.1 场景说明
4.2.2 简单的DDL操作
4.2.3 生成数据
4.2.4 单表查询
4.2.5 多表连接JOIN
4.2.6 高级查询
4.2.7 多表关联UNION ALL
4.2.8 多路输出(MULTI-INSERT)
4.3 网站日志分析
4.3.1 准备数据和表
4.3.2 维度表
4.3.3 访问路径分析
4.3.4 TopK查询
4.3.5 IP黑名单
4.4 天猫品牌预测
4.4.1 主题说明和前期准备
4.4.2 理解数据
4.4.3 两个简单的实践
4.4.4 问题分析和算法设计
4.4.5 生成特征