更新时间:2021-01-07 17:13:46
封面
版权信息
前言
第一部分 工程基础篇
第1章 机器学习软件工程方法
1.1 机器学习简述
1.1.1 机器学习与人工智能、深度学习等的关系
1.1.2 机器学习类别与范式
1.2 软件工程方法
1.2.1 机器学习中的软件工程
1.2.2 编码和测试
1.3 朴素贝叶斯测试驱动开发案例
1.3.1 开发准备
1.3.2 开发邮件分类器
1.4 本章小结
第2章 工程环境准备
2.1 Anaconda
2.1.1 安装Anaconda
2.1.2 使用conda管理环境
2.1.3 Jupyter Notebook基础使用和示例
2.2 使用Pipenv定制Python环境
2.2.1 Pipenv简介
2.2.2 Pipenv基础使用和示例
2.3 Docker打包环境
2.3.1 Docker简述
2.3.2 Docker架构
2.3.3 Docker基础使用和示例
2.3.4 打包示例
2.4 标准化在数据科学项目中的意义
2.5 数据科学项目工程环境
2.5.1 开发镜像
2.5.2 项目工程模板
2.5.3 操作演示
2.6 本章小结
第3章 实验数据准备
3.1 常用数据分布
3.1.1 伯努利分布
3.1.2 二项分布
3.1.3 泊松分布
3.1.4 均匀分布
3.1.5 正态分布
3.1.6 指数分布
3.2 开源数据集
3.2.1 开源数据集介绍
3.2.2 scikit-learn中的数据集
3.3 scikit-learn数据集生成接口
3.3.1 常用接口
3.3.2 分类模型随机数据生成
3.3.3 回归模型随机数据生成
3.3.4 聚类模型随机数据生成
3.4 随机数生成简介
3.4.1 随机数生成的原理和概念
3.4.2 随机数生成示例
3.4.3 随机数应用场景介绍
3.5 本章小结
第二部分 机器学习基础篇
第4章 机器学习项目流程与核心概念
4.1 机器学习项目流程
4.1.1 如何定义Y
4.1.2 如何取样X
4.1.3 如何划分数据集
4.1.4 如何选择学习算法
4.1.5 数据分析和处理
4.1.6 特征工程
4.1.7 模型训练与调参
4.1.8 模型评估与报告
4.1.9 模型部署
4.1.10 模型监控
4.1.11 模型重训或重建
4.2 机器学习算法8个核心概念
4.2.1 损失函数和正则化
4.2.2 欠拟合与过拟合、偏差与方差
4.2.3 交叉验证
4.2.4 数据泄露
4.3 本章小结
第5章 数据分析与处理
5.1 变量的类型
5.2 常用分析方法
5.2.1 整体数据概览
5.2.2 单变量可视化分析
5.2.3 双变量可视化分析
5.2.4 多变量可视化分析
5.3 缺失值分析与处理
5.3.1 数据缺失的类型
5.3.2 查看缺失情况
5.3.3 缺失值处理方式
5.4 异常值分析与处理
5.4.1 查看异常情况
5.4.2 异常值处理
5.5 数据分析工具包开发实战
5.5.1 核心功能
5.5.2 使用示例
5.5.3 核心代码
5.6 本章小结
第三部分 特征篇
第6章 特征工程
6.1 特征工程简介
6.2 特征处理基础方法和实现
6.2.1 定量特征
6.2.2 序数特征