前言
回顾数据仓库和数据挖掘的发展历程,我们发现,这两个概念和理论原本是从不同的层次和角度提出,并且是相互独立,各自发展的。数据仓库是为提高分析和决策的效率和有效性,按照决策支持的需要对相关数据进行重新组织、建立单独的分析处理环境而出现的一种数据存储和组织技术。数据挖掘从技术的角度来讲,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是是对商业数据中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键信息,即从数据中自动发现相关商业模式。
经过数十年的发展和进化,数据仓库和数据挖掘逐渐融合在一起,形成一种新的模式,即“DW(数据仓库)+OLAP(联机分析处理)+DM(数据挖掘)”,如今,无论是从应用层次,还是从理论和技术层次,我们已经不能把二者分开,数据仓库成为数据挖掘的基础和数据保障,数据挖掘也不再神秘,高不可攀,已经从专家学者们独享的象牙塔中走出,把它的应用扩展到各个领域。
笔者长期从事数据仓库和数据挖掘的理论教学和科研项目研究,本书的编写就是在这些教学积累和科研成果基础上完成的。在本书的编写中坚持理论、技术和实践充分融和的原则,贯穿整书每一章节的基本思想是以解决实际问题为目标,书中的理论公式和技术方法都力图用一个具体的示例加以解释和说明,最后以一个实际开发的数据仓库项目为案例,将系统实际开发中不同环节和阶段遇到的问题给出具体的解决方法,不仅加深了对知识的理解,更增强了数据仓库系统实际开发能力。同时本书还配备了相应的实验教材。
本书从逻辑层次上分为导论、原理、技术和实践四大部分,第1章和第2章是导论部分,首先介绍了数据仓库与数据挖掘的基本概念,然后从应用层面介绍了数据仓库与数据挖掘技术在多个热点行业的最新应用情况。第3章至第9章是原理部分,系统介绍了数据仓库、OLAP和数据挖掘技术的基本原理,以及关联规则分析算法、聚类分析算法、分类分析算法和序列模式分析算法。第10至第14章是技术部分,以微软SQL Server 2000为数据管理平台,系统介绍了OLAP分析功能,多维数据集设计、维度和指标的建立、MDX语言的应用、多维数据集的优化、数据挖掘和管理技术。第15章是实践部分,主要介绍了数据仓库系统的开发方法,以一个实际的数据仓库系统开发项目为背景,详细介绍了该系统的体系结构设计和模型设计。
本书既可作为高等院校硕士研究生和本科生的教材和参考书,也可作为程序设计人员的参考书。
本书由姚家奕主编。在本书的编写过程中得到了张润彤教授、关中良教授的大力支持和帮助,并为本书提出了很多建设性的意见,在此一并感谢!同时还要感谢的是为本书的资料收集和文档编辑投入大量时间的研究生王一清、孔淑慧、石丹丹、葛洵洵和徐进华。最后应该感谢的是为本书的出版给予巨大支持的电子工业出版社。
本书难免会有许多不足之处,恳请专家、同行和读者提出宝贵意见。
编者
2009年5月