数据挖掘原理与SPSS Clementine应用宝典
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.5 数据挖掘标准和规范

如何选择满足自己需要的数据挖掘工具呢?评价一个数据挖掘工具,需要从以下几个方面来考虑。

1. 产生的模式种类的多少

2. 解决复杂问题的能力

数据量的增大,对模式精细度、准确度要求的增高都会导致问题复杂性的增大。数据挖掘系统可以提供下列方法解决复杂问题。

多种模式。多种模式的结合使用有助于发现有用的模式,降低问题复杂性。例如,首先用聚类的方法把数据分组,然后再在各个组上挖掘预测性的模式,将会比单纯在整个数据集进行操作更有效、准确度更高。

多种算法多种模式。特别是与分类有关的模式,可以有不同的算法来实现,各有各的优缺点,适用于不同的需求和环境。数据挖掘系统提供多种途径产生多种模式,将更有能力解决分组问题。验证方法在评估模式时,有多种可能的验证方法,比较成熟的方法像N折交叉验证MDL等方法,以达到最大的准确度。

数据选择。转换模式通常被大量的数据项隐藏。有些数据是冗余的,有些数据是完全无关的。而这些数据项的存在会影响到有价值模式的发现。数据挖掘系统的一个很重要的功能就是能够处理数据复杂性,提供工具,选择正确的数据项和转换数据值。

可视化。可视化工具提供直观、简洁的机制表示大量的信息。这有助于定位重要的数据,评价模式的质量,从而减少建模的复杂性。

扩展性。为了更有效地提高处理大量数据的效率,数据挖掘系统的扩展性十分重要。需要了解的是:数据挖掘系统能否充分利用硬件资源?能否支持并行计算?算法本身设计为并行的或利用了DBMS的并行性能?支持哪种并行计算机,SMP服务器还是MPP服务器?当处理器的数量增加时,计算规模是否相应增长?是否支持数据并行存储?为单处理器的计算机编写的数据挖掘算法会不会在并行计算机上自动以更快的速度运行。为充分发挥并行计算的优点,需要编写支持并行计算的算法。

3. 易操作性

易操作性是一个重要的因素。有的工具有图形化界面,引导用户半自动地执行任务,有的使用脚本语言。有些工具还提供数据挖掘的API,可以嵌入到像C、Visual Basic、PowerBuilder这样的编程语言中。

模式可以运用到已存在或新增加的数据上。有的工具有图形化的界面,有的允许通过使用 C程序语言或SQL中的规则集,把模式映射到程序或数据库中。

4. 数据存取能力

好的数据挖掘工具可以使用SQL语句直接从DBMS中读取数据,这样可以简化数据准备工作,并且可以充分利用数据库的优点(比如并行读取)。没有一种工具可以支持大量的DBMS,但可以通过通用的接口连接大多数流行的DBMS。Microsoft的ODBC就是这样的接口。

5. 与其他产品的接口

有很多别的工具可以帮助用户理解数据,理解结果。这些工具可以是传统的查询工具、可视化工具、OLAP工具。数据挖掘工具是否能提供与这些工具集成的简易途径呢?

因为数据挖掘工具需要考虑的因素很多,很难按照原则给工具排一个优劣次序。最重要的还是用户的需要,根据特定的需求加以选择。数据挖掘工具可以给很多产业带来收益。国外的许多行业,如通信、信用卡公司、银行和股票交易所、保险公司、广告公司、商店等已经大量利用数据挖掘工具来协助其业务活动;国内在这方面的运用还处于起步阶段,对数据挖掘技术和工具的研究人员以及开发商来说,我国是一个有巨大潜力的市场。