第2章 数据挖掘基础
2.1 数据挖掘的定义
数据挖掘(Data Mining)是近几年的热门话题,学术界对数据挖掘的定义尚未统一,有一些学者认为数据挖掘就是从数据库中进行知识发现,又称为Knowledge Discovery in Database,即KDD;还有一些学者认为数据挖掘只是KDD的一部分。韩家炜教授认为数据挖掘就是从大量有噪声的数据中抽取有意义的(非平凡的、隐含的、以前未知的并且有潜在价值的)信息或模式的过程。本书后面内容中的数据挖掘都是指韩家炜教授定义的数据挖掘。数据挖掘的模型主要包括预测模型和描述模型,此类模型涵盖了统计学中的回归分析、判别分析、聚类分析等技术,机器学习中的决策树、神经网络等技术,以及数据库中的关联规则分析、时间序列分析等技术,所以数据挖掘是统计学、机器学习、数据库等多个学科相互交叉的重要领域。
数据挖掘通过成熟的统计分析方法可以实现分类、预测、关联规则分析、智能推荐、聚类等功能。分类是指在已有类标记的数据集上,构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别中,所以分类属于有监督的学习。预测是指建立两种或两种以上变量间相互依赖的数学模型,然后对其中的一个变量或多个变量进行预测或控制。关联规则分析是从大量的数据中挖掘出项目间有意义的联系,进行关联规则分析最初是为了发现超市销售数据库中不同商品销售数据之间的关联关系,以便对货架上的物品进行分组与设计,关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。与分类不同,聚类是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用由有类标记的样本构成的训练数据不同,聚类模型可以建立在无类标记的数据基础上,是一种无监督的学习。
数据挖掘的最终目标是帮助企业提取数据中蕴含的商业价值,提高企业的竞争力,数据挖掘的基本流程如图2-1所示。
图2-1 数据挖掘的基本流程
在进行数据挖掘之前,首先要针对企业需求了解行业,熟悉背景知识,明确挖掘目标,也就是要清楚企业希望解决的问题及想达到的效果;依据目标与专业人士沟通,选取或采集所需数据;对数据进行简单的分析与整理,主要检测数据与问题的相关程度,数据的缺失及异常情况,尽量避免在数据信息损失的情况下对数据进行预处理;选择合适的方法或模型对问题进行分析,采用科学的方法对模型进行评价,如果可能的话对模型进行优化;最后结合行业背景对模型结果进行解释,并解决行业相关的其他问题。