本章主要介绍了实验数据的准备,包含人工生成数据集、经典开源数据集和scikit-learn中相关接口的介绍,最后简述了随机数生成原理。
3.1节介绍了常见数据分布和相关统计指标,为分析和推理统计提供了基础,如伯努利分布、二项分布等。
3.2节介绍了多个开源项目数据集,读者可参考选取适用于不同机器学习场景下的数据集。
3.3节介绍了scikit-learn中自带的数据集以及自定义数据集的生成接口。
3.4节简述了随机数生成原理和随机数的应用场景,如随机数划分、算法中的随机数。