智能风控与反欺诈:体系、算法与实践
上QQ阅读APP看书,第一时间看更新

2.2.3 熵权法

专家调查权重法还是更多依赖于专家团队的主观意见,这就可能造成给出的定性指标有可能脱离于当前业务的实际情况而存在的问题。为了杜绝这种经验主义,更为量化的熵权法(Entropy Weight Method)被引入风险管理的场景中来。

在介绍熵权法之前,我们需要先了解下熵(Entropy)的概念。熵最早来自于热力学,是衡量一个体系中混乱程度的指标,熵越大则说明这个体系越混乱。信息熵(Information Entropy)则借鉴了这个概念,用来描述一个事件所包含信息量的期望。如果一个事件中的某种可能情况发生概率过大,则这个事件的整体离散程度较小,即平均信息量较小。信息熵的计算公式如下:

其中p(x)代表事件X中每个可能情况x发生的概率,并且规定0 ln(0)=0。

根据信息熵的定义,可以利用熵值来确定某个指标的权重,熵值越小则说明这个指标的信息量越大,对于综合评价的影响也越大。如果某个指标的所有值相同,则对于综合评价没有任何影响。熵权法的计算步骤如下所示。

(1)数据标准化

首先要对各个指标进行标准化处理,目的是去除不同指标量纲对于权重计算的影响。数据标准化常见的方法有最大最小标准化和Zscore标准化。

假设第i个客户的第j个指标为xij,标准化后为x'ij,则最大最小标准化的计算公式如下:

Zscore标准化的计算公式如下:

其中代表所有客户第j个指标的平均值,σ(xj)代表所有客户第j个指标的标准差。

(2)计算各指标信息熵

根据信息熵的公式,每个指标的信息熵计算公式如下:

其中n为全体客户数,为p第j个指标下第i个样本所占比重。

(3)确定各指标权重

基于信息熵,各指标的权重计算公式如下:

其中m为指标总个数。

我们以Kaggle社区上捷信(Home Credit)的贷款申请数据为例,帮助大家更好地理解熵权法。有10位客户申请节点的10个指标,如表2-2所示。

表2-2 捷信客户样本申请节点指标

利用公式(2-2)进行标准化后,代入公式(2-4)计算出10个指标的信息熵,如表2-3所示。

表2-3 捷信客户样本指标信息熵

将信息熵代入公式(2-5)计算出10个指标的权重,如表2-4所示。

表2-4 捷信客户样本指标权重