Clementine数据挖掘方法及应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前 言

数据挖掘是当前数据分析领域中最活跃最前沿的地带。

任何事物都有定性和定量两个方面,定量则产生数据。从数据分析入手是我们认识事物本质的基本手段。任何事物都是互相关联着的,从数据分析入手是我们把握事物之间联系的基本方法。任何事物都在永恒地变化发展着,从数据分析入手是我们探索事物发展规律的基本思路。所以我们进行数据分析,既是一种世界观,也是一种方法论。我们在研究着丰富多彩的客观世界的同时,也体现着分析者主观的智慧和自身的价值。

随着中国社会经济的蓬勃发展,在错综复杂的宏观、中观和微观的共同作用下,战略决策和战术选择都显得敏感而关键,越来越多的人们加入到数据分析的行列中来。这是一个非常富有挑战性的工作,不但有意思而且有意义。

IBM公司于2009年1月公布了其“智慧地球”战略。该战略的主要思想是,将传感设备或智能仪表嵌入到建筑、电力、交通、管道等各种物体中,进行数据自动采集,之后基于互联网形成物物相联的物联网,然后通过超级计算机和云计算将数据整合,进行智能化分析和建模,从而实现社会与物理世界的融合。这是一个未来理想化的信息世界图景。

在这个智慧系统中,其核心是数据处理。为此,IBM公司于2009年7月斥资12亿美元收购了著名的SPSS统计分析软件公司,将其应用广泛的SPSS统计分析软件和Clementine数据挖掘软件纳入麾下。同时对软件产品进行了整合,将Clementine更新命名为PASW(Predictive Analytics SoftWare)Modeler,并快速推向市场。

目前,SPSS Clementine软件已经连续若干年蝉联数据挖掘应用的王者,而业界对于PASW Modeler的认知则刚刚开始。所以本书继续沿用为广大读者所熟悉的Clementine这个名字。

Clementine软件不但将计算机科学中许多机器学习的优秀算法带入到数据分析中来,同时也综合了一些行之有效的数据挖掘方法,成为内容最为全面、功能最为强大的数据挖掘产品。

Clementine软件充分利用计算机系统的运算处理能力和图形展现能力,将方法、应用与工具有机地融合为一体,是解决数据挖掘问题的最理想工具。

Clementine软件继续保持了SPSS产品的一贯风格:界面友好且容易使用。复杂的数学算法和冗余的输出结果被软件隐藏在程序系统内部。Clementine软件始终把自己的应用对象锁定在实际部门的业务分析人员,而不是一个数据分析专家。这种“傻瓜型”软件经常遭到一些精英学者的指摘,但是这恰恰成为Clementine成功开拓自己应用疆域的最有效利器。

本书作者常年从事计算机数据分析的教学与科研工作,并长期跟踪研究SPSS公司数据分析产品,具有计算机应用与统计分析的双重学历背景。我们深知,对于数据挖掘这样一款综合方法性的软件工具来说,一个基层的读者应该从哪些方面入手,就能很快地掌握和使用Clementine开始数据挖掘工作,并从中受益。

本书默认读者具有以下特征:具有基础的计算机操作能力;不甚了解数据挖掘的原理和方法;有自己应用领域积累的数据,渴望使用数据挖掘方法解决实际问题。

所以,针对上述读者群,本书的特点是:

1.以数据挖掘过程为线索介绍Clementine软件

目前,具备基本的计算机操作能力已经不是读者的障碍,数据挖掘的过程与方法才是读者关心的主题和应用的难点。各领域众多的读者所面临的问题是:自己拥有的一批数据不知道如何使用Clementine进行组织,不知道如何利用Clementine对它们进行基本加工和整理;其次,不知道选择Clementine中的哪些方法对数据进行分析,不知道如何解释分析结果。

因此,本书以数据挖掘的实践过程为主线,从Clementine数据管理入手,说明问题从浅至深,讲解方法从易到难。这样,能使读者在较短时间内掌握Clementine的基本功能和一般方法,并可快速地运用于实际工作中。

2.数据挖掘方法、软件操作、案例分析的有机结合

目前,由于数据挖掘方法的中文资料相对不足,Clementine相关书籍都比较侧重对其英文手册的翻译介绍,侧重于计算机操作过程的描述。而对数据挖掘方法则较多地罗列数学公式,对于输出结果也缺少恰当的解释。

本书作者配合实际案例,侧重数据挖掘方法核心思想和基本原理的阐述,使得读者可以直观理解方法,并正确掌握方法的应用范围,不至于滥用或者误用。同时介绍软件操作,使得读者能尽快熟悉Clementine软件,从而在理解方法与掌握操作的基础上对输出结果进行合理的解释。

3.数据挖掘方法讲解通俗,软件操作过程说明翔实

针对初学者的特点,本书力求以最通俗的方式对数据挖掘方法的核心思想与基本原理进行讲解,同时避免大量罗列数学公式、数学推导与数学证明,目的是使读者能够直观地了解方法的本质,并正确运用;介绍方法的同时也紧紧围绕Clementine的输出结果展开,以使读者理解分析结论的重要性,会合理地引用分析结果。另外,本书对Clementine的操作过程也给出了较为翔实的说明,但并非是对菜单功能清单的描述,而是将其穿插于分析案例的实现过程中。

本书适合于从事数据分析各应用领域的读者,尤其适合于商业管理、财政经济、金融保险、社会研究、人文教育等行业的相关人员。同时,也能够作为高等院校计算机类、财经类、管理类专业本科生和研究生的数据挖掘教材。

本书共分十章,由薛薇、陈欢歌执笔完成,全书最后由薛薇审核定稿。本书所附光盘配备全书的案例数据和数据流文件。

由于水平所限,书中难免出现错误,敬请读者批评指正。

编著者