2.1 概念与类描述
在对数据进行分析、处理过程中,用户常常需要抽象的有意义的描述。经过归纳的抽象描述能概括大量的关于类的信息。概念/类描述就是通过对某类对象关联数据的汇总、分析和比较,用汇总的、简洁的、精确的方式对此类对象的内涵进行描述,并概括这类对象的有关特征。
概念描述分为特征性描述和区别性描述,前者是指从与某类对象相关的一组数据中提取出关于这些对象的共同特征,后者描述两个或更多不同类对象之间的差异。生成一个类的特征性描述只涉及该类对象中所有对象的共性,生成区别性描述则涉及目标类和对比类中对象的共性。
特征性描述是目标类数据的一般特征或特性的汇总。有许多有效的方法,可以将数据特征化和汇总。例如,基于数据立方体的OLAP方法。该方法中涉及对数据立方体的上卷(roll-up)或下钻(drill-down)操作,可以用来执行由用户控制的、沿着指定维的数据汇总。由此,用户可以发现汇总后的,处于更高概念层次的目标类知识。另外,还可以用面向属性的归纳方法(AOI,Attribute Oriented Induction)来进行数据的泛化和特征化,而不必一步步地与用户交互。与OLAP方法不同, AOI方法可以自动建立静态或动态的概念层次结构。
提示
数据立方体是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个或更多因素(维度)。数据立方的维通过一系列能够形成层次的属性构成网格,例如日期(date)可以包含属性天、周、月、季和年,这些属性构成了维的网格。
数据特征的输出可以用多种形式提供,包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系或规则(称做特征规则)形式提供。
例如,数据挖掘系统应该能够从某校职工数据库中,产生该校讲师情况的汇总特征的描述,其中一条概念描述规则可以是“(62%)(age<30)and (age>24)”,表示该校讲师中约有三分至二的人年龄在24岁至30岁之间。显然这是该校青年讲师情况的一个概念描述。
又如,利用面向属性的归纳方法(AOI),在一个商场数据库(2000年销售)中进行属性归纳操作,获得了如下的归纳结果,如表2.1所示。
表2.1 AOl方法挖掘结果表格表示示意描述
对于以上结果,也可以用组合表(crosstab),如表2.2所示,或者以其他图表的形式来描述,如图2.1和图2.2所示。在数据分析中可视化图示非常普遍。
表2.2 对应表2.1的组合表表示描述
图2.1 对应表2.2棒图表示描述
图2.2 对应表2.1(部分数据)的饼图表示描述
区别性描述是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。这种比较必须在具备可比性的两个或多个类之间进行。区别性描述所采用的方法与特征性描述相似。例如,对某校讲师和副教授的特征进行比较,可能会得到这样一条规则:“讲师:(78%)(paper<3)and (teaching course<2)”,而“副教授:(66%)(paper>=3)and (teaching course>=2)”;该对比规则表示该校讲师中约有四分至三的人发表论文少于三篇且主讲课程不超过一门;而对比之下该校副教授中约有三分至二的人发表论文不少于三篇且主讲课程不少于两门。