4　大数据预处理

4.1　大数据预处理的作用及分类

机器学习是人工智能得以实现的重要方法，它最早来源于人工智能领域，希望能够通过教会机器像人类一样思考，从而使其具有像人类一样的智能。机器学习的主要思想是对现实世界收集到的数据进行分析，找到其中的规律，进而对现实世界做出正确的决策或者给出预测。

机器学习主要由以下步骤组成：

①获取数据：从现实世界收集数据。

②数据预处理：对收集的数据进行处理，纠正或清除不合理数据、缺失值等。

③特征工程：选择与学习模型最相关的特征，以降低学习成本，提高学习效率。

④数据建模：使用不同的机器学习算法，建立学习模型，并给出学习结果。

⑤学习结果验证：对学习结果进行验证，分析模型的准确率，根据验证结果调整模型，以得到最优的学习模型。

机器学习通常使用算法对现有数据进行建模，然后训练模型得到学习结果。模型的不同，决定了学习效果的好坏。整个过程需要建立在较为完整的数据集的基础上。如果数据集存在问题，那么机器学习的效果就会受到严重的影响（Garcia and Luengoand Herrera, 2016）。然而，在现实环境中，采集到的数据集通常都会存在各种各样的问题，如大量数据存在缺失值或由于来源不同，采用的标准各自不同，当这些数据集组合时，会造成标准不统一；一些人为的原因或者特殊情况也会造成噪声数据的存在。以上这些都会造成数据集无法直接应用于算法，要解决这些问题，就需要在建模之前进行数据预处理（孔钦、叶长青、孙赟，2018）。

作为机器学习的一个重要步骤，数据预处理属于知识发现的一个重要环节，可以通过去除无效数据、调整数据组织结构等方式对数据集进行整理，使之适合机器学习算法（孔钦等，2018）。在整个机器学习的过程中，通常建模及算法学习的过程只占总时间的10%，而用于数据预处理的过程则占总时间的60%～70%，因此如何有效、快速、准确地进行数据预处理至关重要。

数据预处理分为数据清洗、数据集成、数据变换和数据归约几种方式，接下来将分别介绍这几种方式。

4 大数据预处理

4.1 大数据预处理的作用及分类

4　大数据预处理

4.1　大数据预处理的作用及分类