1.3 数据挖掘系统分类
数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学(参见图 1.2)。此外,依赖于所用的数据挖掘方法,可以使用其他学科的技术如神经网络、模糊或粗糙集合论、知识表示、归纳逻辑程序设计或高性能计算。依赖于所挖掘的数据类型或给定的数据挖掘应用,数据挖掘系统也可能集成空间数据分析、信息检索、模式识别、图像分析、信号处理、计算机图形学、Web技术、经济学、商业、生物信息学或心理学领域的技术。
图1.2 数据挖掘受多门学科影响
由于数据挖掘源于多个学科,因此数据挖掘研究期望产生大量的各种类型的数据挖掘系统。这样,就需要对数据挖掘系统给出一个清楚的分类。这种分类可以帮助用户区分数据挖掘系统,确定最适合其需要的数据挖掘系统。根据不同的标准,数据挖掘系统可以分类如下。
数据挖掘系统可以根据挖掘的数据库类型分类,数据库系统本身可以根据不同的标准(如数据模型、数据类型或所涉及的应用)分类,每一类可能需要自己的数据挖掘技术。这样,数据挖掘系统就可相应分类。
例如,根据数据模型分类,可以有关系的、事务的、对象-关系的或数据仓库的挖掘系统。如果根据所处理数据的特定类型分类,可以有空间的、时间序列的、文本的、流数据的、多媒体的数据挖掘系统,或万维网挖掘系统。
根据挖掘的知识类型分类:数据挖掘系统可以根据所挖掘的知识类型分类,即根据数据挖掘的功能分类,如特征化、区分、关联和相关分析、分类、预测、聚类、离群点分析和演变分析。一个综合的数据挖掘系统通常提供集成的数据挖掘功能。
此外,数据挖掘系统还可以根据所挖掘的知识的粒度或抽象层进行区分,包括广义知识(高抽象层)、原始层知识(原始层数据)或多层知识(考虑若干抽象层)。一个高级数据挖掘系统应当支持多抽象层的知识发现。
数据挖掘系统还可以分类为挖掘数据的规则性(通常出现的模式)与挖掘数据的奇异性(如异常点或离群点)。一般情况下,概念描述、关联和相关分析、分类、预测和聚类挖掘数据的规则性,将离群点作为噪声排除。这些方法也能帮助检测离群点。
根据所用的技术类型分类:数据挖掘系统可以根据所用的数据挖掘技术分类。这些技术可以根据用户交互程度(例如自动系统、交互探查系统、查询驱动系统),或所用的数据分析方法(例如面向数据库或面向数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络等)描述。复杂的数据挖掘系统通常采用多种数据挖掘技术,或结合一些方法的优点采用有效的、集成的技术。
根据应用分类:数据挖掘系统也可以根据其应用分类。例如,可能有些数据挖掘系统特别适合金融、电信、DNA、股票市场、E-mail等。不同的应用需要集成对于该应用特别有效的方法。因此,泛化的全能的数据挖掘系统可能并不适合特定领域的挖掘任务。
下面是数据挖掘功能的介绍。
◆ 分类:它是指将数据映射到预先定义好的群组或类。由于分析测试数据之前,类别就确定了,所以分类常称为有指导的学习。分类算法要求基于数据属性来定义类别,通过观察已知所属的数据的特征来描述类别。
◆ 回归:回归是指将数据映射到一个实值预测变量,它首先假设一些已知类型的函数可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程度最好的函数。
◆ 时间序列分析:在时间序列分析中,数据的属性值是随着时间不断变化的。一般是通过时间序列图将时间序列数据可视化,然后用一些方法完成时间序列建模或者时间序列预测。
◆ 预测:预测可以看做一种分类,它是基于过去的和当前的数据对未来的数据状态进行预测。它和分类的主要差别是预测主要是预测未来数据的状态而不是当前状态。
◆ 聚类:聚类和分类很相似,主要区别是聚类的类别没有预先定义,是指无指导的学习。可以将聚类看成将数据划分或分割成相交或者不相交的群组的过程,将相似的数据聚集成簇。
◆ 汇总:汇总就是将数据映射到伴有简单描述的子集中,有时也称为特征化或泛化。汇总就是从数据库中抽取或得到有代表性的信息,也可以通过检索部分数据来完成,得到一些总结性信息,将数据库的内容特征化。
◆ 关联规则:关联规则也称关联分析,是指揭示数据之间相互关系的一项数据挖掘任务,而这种关系在数据中没有直接表示。关联规则可以识别出特殊类型的数据关联的模型。这些关联通常用于零售业了解哪些商品频繁地被顾客同时购买。
◆ 序列发现:序列发现用于确定数据与时间相关的序列模式,这些模式与在数据中发现的相关的关联规则很相似,只是这些序列模式是与时间相关的。例如在购物篮分析中,关联分析的重点是一次购买商品记录的不同,序列发现要求购买的商品记录是按照时间次序登记的。