6.4 粗糙集理论简介及权重计算
6.4.1 粗糙集的概念
1982年,波兰学者Pawlak提出了粗糙集的概念,该理论以数据挖掘为主要研究内容,对数据中存在不精确、不一致和不完善的不完备信息进行分类,挖掘出隐含的信息。粗糙集主要通过定义上近似集和下近似集来解决边界不清晰的模糊问题,其核心就是知识的约简和属性重要性的确定,约简知识的同时可以对决策规则进行分析研究,将不同知识用知识库中的知识进行表达。
6.4.2 信息表与不可分辨关系
(1)信息表和决策表。粗集理论通过一张信息表来反映论域中各个研究对象,每一行表示一个对象,每一列表示对象的一个属性。
定义1(信息表):S=(U,A,V,f)定义成一张信息表,论域U作为一非空有限对对象集,即U={x1,x2,…,xn}和A={a1,a2,…,am}是具备非空有限属性的集合,Va是属性a的值域,即,通过信息函数f给每个对象的属性赋予信息值,并且信息函数满足条件f:U×A→V,对任意的x∈U,a∈A有f(x,a)∈Va。在这张信息表S中,属性集A由条件属性C和决策属性D组成,并满足C∪D=A,C∩D=∅则称S为决策表,记为S=(U,C∪D)。
(2)不可分辨关系。
定义2:令R为一族等价关系,设P⊆R,且P∉∅,P中所有等价关系的交集称为P上的不可分辨关系,记作IND(P),满足:。显然IND (P)也是等价关系,为了避免概念的重复,便于理解,现将U/IND(P)记为U/P。
6.4.3 粗糙集的两个近似集合
图6.13 粗糙集示意图
粗糙集理论以经典结合理论为基础进行理论外延,将集合的概念进一步划分为满足理论需要的上近似集和下近似集,进而充分发挥集合概念的优越性描述事物的不确定程度。上近似集表示研究对象集合可能属于该集合,而下近似集表示研究对象集合一定属于该集合,图6.13为粗糙集示意图。
定义3 (集合的上、下近似):假定S为一张信息表,X为U的非空子集,B⊆A且B≠∅,则={x∈U:IB(x)⊆X}称为集合X的B下近似集;={x∈U:IB(x)∩X≠∅}称为集合X的B上近似集;BNB(X)=为X的B边界域;POSB(X)=为X的B正域;NEGB(X)=U-为X的B负域。
6.4.4 属性的重要性及权重
知识表达系统为含有4个变量的四元组S=(U,A,V,f),四元组中U/C={x1,x2,…,xn},U/D={Y1,Y2,…,Ym},由此可求得决策属性D关于条件属性C的(或称C对D)支持度定义为
式中:sptC(D)为决策属性D依赖于条件属性C的程度,值域为 [0,1];为集合#的基数,在有线集合中代表结合中的元素个数。
当sptC(D)=1时,称D完全依赖于C;当sptC(D)=0时,称D完全独立于C;当0<sptC(D)<1时,称D粗糙依赖于C;sptC(D)表示Q在C下的正域。
属性子集Ci(∅⊂Ci⊆C)对决策属性D的重要性公式为
式(6.6)表示在条件属性C中删除某一属性子集Ci后对决策属性D的影响程度。如果删除属性子集Ci后,对决策属性D的影响大,说明该属性子集越重要,反之亦然。
通过条件属性子集重要性的计算,得到每个条件属性子集对决策属性的影响程度,依据重要性大小反映出属性子集对决策属性的影响情况,而条件属性子集的权重:
式中:ωi为第i个评价指标权重。
6.4.5 基于FCM算法的数据离散化
FCM算法又称为模糊C-均值算法,最初由Bezdek提出,该方法的提出为进行数据挖掘奠定了良好的基础。它根据设定聚类数、指数权重、停止阈值以及初始化隶属度矩阵进行迭代,最终将对象集合分割成几个类别,将所有数据信息进行离散化处理,将其转化成适合粗糙集理论直接应用的数据模式。
设样本序列X={x1,x2,…,xn},n为样本序列长度,其中xi={xi1,xi2,…,xik}为一k维向量,将此集合依据一定的准则分成c个模糊子集。其中,c为聚类个数,聚类中心向量V=(v1,v2,…,vc)和隶属度矩阵[uij]i=1,2,…,c;j=1,2,…,n表示聚类的结果。
式中:vi为聚类中心;uij为xj属于i的隶属程度。
FCM算法的目标函数为
模糊C-均值聚类分析方法立足误差平方和目标函数两大准则,通过初期设定的聚类个数、参数指标权系数、停止迭代的阈值以及初始隶属度矩阵,通过式(6.8)和式(6.9)反复迭代聚类中心和数据隶属度直到收敛,使目标函数式(6.10)达到最小,模糊聚类划分到此结束。