机器学习案例实战
上QQ阅读APP看书,第一时间看更新

第2章 银行信用卡风险的可视化分析

可视化是数据分析的基本方法,贯穿机器学习的全过程:在问题明确阶段,可以通过数据的可视化展示,促进问题的构思;在数据预处理阶段,可以辅助分析人员勘察数据的分布、噪声、变量的相关性、变量的趋势等基本规律;在建模阶段,可视化本身就是一种机器学习方法,可以通过图表获得业务的问题、目前情况以及未来的发展趋势;在校验阶段,可以展示机器学习模型的运行结果,辅助评判算法的性能好坏。因此,对数据的可视化探索是数据分析的基本功。目前市场上有Tableau、Echart等多种专用的数据可视化工具,大多数的机器学习工具一般也包含可视化的功能组件。

本案例以银行客户信用卡的数据可视化分析为例,使用常用的可视化工具Tableau,分析客户的用卡行为规律。这些操作使用Python语言的可视化功能基本可以实现,有兴趣的读者可以试试。在后续内容中,为了数据分析过程的完整性,可视化分析基本采用Python编程(Matplotlib库)实现。

为了使银行更好地进行风险管理,判定客户信用等级,使用Tableau软件对银行信用卡数据进行可视化分析,主要分析客户申请信息对信用等级的影响、客户消费对信用等级的影响、客户拖欠情况对信用等级的影响以及欺诈客户的特征分析。

客户申请信息用于对新申请客户的初始评估,通过对客户年龄、性别、户籍、婚姻状态、教育程度、职业类别、工作年限、年收入、居住类型、车辆情况、保险缴纳、信贷情况的评估,决定是否审批通过并对审批通过的客户设定初始信用额度,有利于银行降低信用风险。根据客户日均消费金额、次数、最大消费金额等数据评估客户消费习惯,从而帮助银行决定是否需要调整客户信用等级和额度。客户拖欠数据包括拖欠时长和拖欠金额,银行可以根据客户的拖欠情况判定客户是否存在欺诈行为,并采取对应的措施。将这些数据可视化,能够为银行有效地建立起事前、事中到事后的信用风险控制体系。

具体来说,本案例的主要工作如下。

(1)建立Tableau工作簿,转换字段类型并创建工作表。

(2)制作柱形图区分客户信用等级,将各等级客户的特征可视化。

(3)制作箱型图、创建新字段,将客户消费情况对信用等级的影响可视化。

(4)制作散点图、添加趋势线,将客户拖欠情况对信用等级的影响可视化。

(5)对欺诈客户进行特征分析。