2.3.1 粗糙集理论基本理论
粗糙集理论作为一种研究模糊的不完整、不确定、不一致等各种不完备知识的表达、学习、归纳的数学理论方法,具有完全由数据驱动、不需要人为假设的优点,更具客观性。它能在保持知识库分类能力不变的条件下,通过属性约简,剔除冗余信息,导出问题分类和决策规则,无须提供问题所需处理的数据集合之外的任何先验信息或附加信息,仅根据观测数据本身来删除冗余信息,比较知识的粗糙度、知识属性间的依赖性与重要性,抽取分类规则,易于掌握和使用。粗糙集不仅为信息科学和认知科学提供了新的科学逻辑和研究方法,而且为信息知识分析与处理提供了有效的技术,已经在人工智能、知识获取分析与数据挖掘、模式识别与分类、故障监测等方面得到了较为成功的应用。
粗糙集作为描述不完整和不确定性知识的工具,其研究的对象或环境是信息与知识表达系统,通过引入下近似(lower approximation)和上近似(upper approximation)概念来表示知识的不确定性。下近似是指所有对象元素都肯定被包含;上近似是指所有对象可能被包含。通过引入约简和核概念进行知识的分析与处理等计算,简化信息知识中的冗余属性和属性值,进行知识库的约简,提取有用的特征信息。约简就是用对象的部分知识属性取代全体属性,从大量数据中求取最小不变集合,以简化对对象的研究。对于不能进行约简的知识属性,我们称之为“核”。粗糙集中对于系统、上近似、下近似以及约简与核概念的数学定义分别如下。
粗糙集将研究对象抽象为一个信息系统或知识表达系统,可用信息表表示,而信息表又可由四元组来表示,即
式中:U——论域,是一个有限非空集合,是知识系统中研究对象的集合。研究对象即知识表中的元组或者记录。U是知识表中所有元组的集合,可以用U={x1,x2,…,xn}表示。
A——知识属性集,是一个有限非空集合,用于刻画对象的性质,可用A={a1,a2,…,am}表示。
V——知识属性值集,是一个有限非空集合,可用V={v1,v2,…,vm}表示,其中vi是知识属性ai的值域。
f——知识函数,即
其中,f(xi,aj)是元组xi在知识属性aj处的取值。
设U是对象集,R是U上的等价关系,则称(U,R)为近似空间,由(U,R)产生的等价类为
式中:(X)——X的下近似;
(X)——X的上近似。
若(X)=(X),则称X为可定义集合;否则,称X为粗糙集,如图2.4所示。
图2.4 粗糙集概念示意图
定义 给定一个知识表达系统S=<U,A,V,f>,有知识属性集A',A'⊂A且U/A=U/A',并且不存在一个知识属性集A″,A″⊂A'且U/A″=U/A',则称A'为A的一个约简。知识表达系统可有m个约简:A',A″,…,A(m),所有约简的交集C=A'∩A″∩…∩A(m),其中C称为A的核。