前言
为何写作本书
互联网金融与金融科技是数据从业者较为关注的方向之一。风险控制是金融的核心。信贷场景下的风险,很大程度上取决于贷款人的信用风险。因此,如何对贷款用户的信用风险进行合理度量,是信贷平台关注的首要问题。
信贷风控的建模方法由来已久,笔者在另一本著作《智能风控:原理、算法与工程实践》中重点介绍了互联网金融场景下机器学习在金融科技中的应用方法与技术实现。市面上大多数信用评分建模的指导书籍都是基于SAS开发或不涉及工程实现的。因此,为推广传统信用评分方法,我们决定撰写本书。
本书完整地介绍了如何基于Python语言从0到1建立信用评分模型,并系统介绍了建立模型之后,如何通过拒绝推断及校准来修正模型与真实场景的偏差。此外,本书还介绍了如何上线部署,以及后续的监控与迭代中的注意事项。希望读者阅读本书后,可以学习到规范、完整的评分卡建模体系,可以使用Python独立地建立标准评分卡模型,并通过模型与策略相组合的方法实现对贷款用户的信用管理。
本书主要内容
第1章主要介绍了信用管理的基础知识。风控场景对业务知识的储备有较高要求,而市面上也缺少相关名词的规范化材料,因此本章对相关术语进行了解释,并给出了统一的定义。此外,本章还详细地介绍了现阶段企业的风险控制架构。了解整个风控框架,有助于读者理解场景中的具体问题的成因,从而精准定义问题,理解每一项技术的原理。
第2章主要介绍评分卡的相关概念,规范了评分卡模型的建模流程。从适用客群和用途两个角度揭示了从业者定义评分卡的思路,并且对整个建模流程中最重要的步骤——模型设计,进行了详细的梳理。此外,本章还对常用于评分卡建模的数据进行了解读。
第3章主要讲解了评分卡建模中常用的机器学习算法。从机器学习基础出发,由简单的线性回归,逐步进阶到具有良好解释性的逻辑回归模型。除直接用于评分卡建模的逻辑回归模型外,本章还介绍了几种常用的辅助建模模型。最后,还介绍了一些模型之间相互取长补短的合并方法,它们在实践和数据挖掘竞赛中也有较好的效果。
第4章主要介绍了几种常用的用户分群方法,同时系统地介绍了决策树模型和高斯混合聚类模型的原理,并给出了一种基于决策树模型和卡方分箱实现自动生成策略组合的分析方法。虽然用户分群并非评分卡建模的必备流程,但在大多数情况下,它可以为业务带来实际收益。
第5章主要介绍了探索性数据分析、特征衍生、特征变换的基本方法。由于评分卡中常用的广义线性模型只使用了特征的简单加权求和信息,缺乏对特征的深度挖掘能力,因此评分卡模型对人工特征工程的要求远高于其他场景。这一章介绍的特征衍生与特征变换操作是评分卡建模过程中非常重要的环节,该过程耗费的时间通常会占整个开发流程的60%~70%。
第6章主要介绍了特征筛选和模型训练方法。评分卡模型对稳定性的要求通常要高于准确性,因此需要对建模使用的特征进行精细化调优与筛选。特征变换调优过程在第5章中有相关介绍,特征筛选方法则主要集中在第6章。这一章的末尾为读者展示了一个建立评分卡模型的案例。希望读者可以通过该案例理解前6章所介绍的技术是如何应用的。
第7章主要介绍了如何对建立好的评分卡模型进行拒绝推断。信用评分模型本身是一种拥有拒绝属性的模型,幸存者偏差问题会导致每次迭代的模型逐渐偏离真实环境下的数据分布,因此需要通过数据验证、标签分裂、数据推断等方法对现有模型进行修正。
第8章主要介绍了评分卡模型建立之后的应用逻辑和校准方法。模型只是一种嵌入在策略体系中的技术手段,其本质是为策略服务的。在实际应用中,模型分数也常常作为一条单独的规则进行配置。由于一些难以避免的原因,评分卡模型通常需要进行校准,因此这一章对常用的校准方法及其使用场景进行了梳理。
第9章主要介绍了模型开发后的记录工作。由于在实际工作中常常需要多人进行交互,且经常需要回溯很久之前开发过的模型详情,因此保证每一个模型都拥有详细的记录是非常重要的。这一章给出了一个完整的评分卡模型开发文档,以便于读者参考,从而完善现有的模型记录文档。
本书内容特色
与市面上其他建模或机器学习相关的技术书籍相比,本书主要使用Python语言编写,详细介绍了传统信用管理中所涉及的基础知识、技术与工程实现。从统计学、机器学习的角度出发,系统、全面地介绍了风险数据分析中的基础概念与建模技术。本书作为“智能风控”系列的第二本书,对《智能风控:原理、算法与工程实践》一书的基础内容进行了补充。读者选择本书为入门读物,将《智能风控:原理、算法与工程实践》一书作为进阶读物,则可以由浅入深地掌握信贷领域的分析建模技术。
此外,市面上类似的介绍数据建模、算法理论的书很容易陷入平铺直叙的窘境,条理性和严谨性有余而生动性不足,特别是对于广大初学者而言,一本容易阅读的书更为有价值。因此,笔者特邀请知名插画师毛鑫宇为本书手绘漫画与插图,使本书内容表达形式生动、有趣,贴近生活,希望读者在阅读本书的过程中不会感到枯燥乏味。
本书读者对象
本书主要面向希望从事风险控制工作的分析师、建模师、算法工程师,也适合有一定统计基础的在校学生和对使用Python实现自动化信用管理感兴趣的读者。
资源和勘误
本书力求完美,但由于作者水平有限,错误和疏漏之处在所难免。在此,诚恳地期望得到各领域的专家和广大读者的批评与指正。
获取更多相关资料以及提出反馈意见,请关注公众号“大数据风控与机器学习”,后台添加作者微信,加入读者交流群,与更多从业者一起共同学习。书中相关代码可从“华章计算机”公众号获取,回复“智能风控”即可。
致谢
首先,我必须要感谢本书的另外一位作者,同时也是本书封面、插画设计者——毛鑫宇老师。毛老师是我十多年的好朋友,也是一位非常谦虚、低调、有才华的设计师。在过去的一年里,他在完美地完成本职工作的同时,陪着我一同创作了“智能风控”系列书,并在我遇到困难、多次想要放弃的时候,坚定地站在了我的身后。毫不夸张地说,这本书至少有一半功劳属于毛老师。毛老师在百般推辞后才接受在本书封面署名。
其次,我要感谢李志勇教授、黄颖(知乎ID:黄姐姐Hjj)、赵越(知乎ID:微调)、冯海杰(知乎ID:求是汪在路上)、梁辰龙(公众号/知乎“金科应用研院”负责人)等数十位好友在日常交流和工作中对本人的指导。上述各位的书籍、专栏、公众号为包括我在内的广大风控从业者提供了极大的帮助,同时也是许多从业者入门与进阶的指南。本书对各位专家的作品也有所借鉴,在此感谢亦师亦友的各位对本书的大力支持。
感谢toad库开发者、前厚本金融数科团队的周伟鹏、周夕钰、董少乾等多位好友。他们开发的toad库稳健、快速、功能强大,几乎囊括了评分卡开发应用过程中所需的全部功能,为本书的写作带来了极大便利。相信在未来的发展与优化中,toad库会成为广大风控从业者必备的开发工具。
感谢机械工业出版社的杨福川老师和栾传龙老师。两位老师为本书花费了大量的个人时间,并在本书的创作过程中提出了宝贵的修改建议。
特别感谢林超颖、陈国栋、张斌斌等领导、同事的支持和理解。满帮集团是一家学习氛围非常浓厚的公司,我在满帮集团工作的日子非常快乐。此外,还要感谢因篇幅限制而没有提及名字的各位同事,非常感谢各位对我工作上的指导,以及思想和生活上的帮助。
最后感谢购买本书的读者,希望本书能为您带来一些收获。
梅子行
2020年3月