作者:ZIXUN / 来源:华章计算机
互联网金融与金融科技是数据从业者关注度较高的方向之一。风险控制是金融的核心。信贷场景下的风险,很大程度上取决于贷款人的信用风险。因此如何对贷款用户的信用风险进行合理度量,是信贷平台关注的首要问题。
由于信贷风控的建模方法由来已久,笔者在另一本专著《智能风控:原理、算法与工程实践》中,重点介绍了互联网金融场景下,机器学习在金融科技中的应用方法与技术实现。与好友交流中发现,市面上大多数信用评分建模的指导书籍,是基于SAS开发或不涉及工程实现的。
为推广传统信用评分方法,弥补市场空白,决定撰写《智能风控:Python金融风险管理与评分卡建模》。该书完整地介绍如何基于Python语言从0到1建立标准信用评分模型,并系统介绍了建立模型之后,如何通过拒绝推断及校准,来修正模型与真实场景的偏差。此外,本书还介绍了如何上线部署以及后续监控与迭代中的注意事项。希望读者朋友阅读该书后,可以学习到规范、完整的评分卡建模体系,可以使用Python独立地建立标准评分卡模型,并通过模型与策略相组合实现对贷款用户的信用管理。
Part1.内容介绍
全书共9章。大部分章节由问题、原理、代码演示三部分组成。其中第一章主要介绍。从第2章开始,依次介绍信用评分模型开发过程中的数据处理、用户分层、变量处理、变量衍生、变量筛选、模型训练、拒绝推断、模型校准、决策应用、模型监控、模型重构与迭代、模型报告撰写等。
第1章主要介绍信用管理基础知识。风控场景对于业务知识的储备有较高要求,市面上也缺乏相关名词的规范化材料。因此本章对于相关术语进行解释,并给出统一的定义。此外,本章详细地介绍了现阶段企业风险控制架构。了解整个风控框架,有助于读者理解场景中的具体问题成因,从而精准定义问题,理解使用每一项技术的原因。
第2章主要介绍评分卡的相关概念,规范了评分卡模型的建模流程。通过适用客群、用途两种角度揭示从业者定义评分卡的思路。并且对整个建模流程中最重要的步骤——模型设计,进行了详细地梳理。此外,本章还对常用于评分卡建模的数据进行了解读。
第3章主要介绍评分卡建模中常用的机器学习算法。从机器学习基础出发,从简单的线性回归,逐步进阶到具有良好解释性的逻辑回归模型。除直接用于评分卡建模的逻辑回归模型外,还介绍了几种常用于辅助建模的模型。最后,还介绍了一些模型之间相互取长补短的合并方法,在实践或数据挖掘竞赛中也有较好的效果。
第4章主要介绍了几种常用的用户分群方法。同时系统地介绍了决策树模型和高斯混合聚类模型的原理。并给出了一种基于决策树模型和卡方分箱,实现自动生成策略组合的分析方法。虽然用户分群并非评分卡建模的必备流程,但在大多数情况下,它可以为业务带来实际收益。
第5章主要介绍探索性数据分析、特征衍生、特征变换的基本方法。由于评分卡中常用的广义线性模型,只使用了特征的简单加权求和信息,缺乏对特征的深度挖掘能力。因此评分卡模型对于人工特征工程要求远高于其他场景。这一章介绍的特征衍生与特征变换操作是评分卡模型建模过程中非常重要的环节。该过程耗费的时间,通常会占用整个开发流程的60%~70%。
第6章主要介绍特征筛选和模型训练方法。由于评分卡模型对于稳定性的要求通常要高于准确性,因此需要对建模使用的特征进行精细化的调优与筛选。特征变换调优过程在第5章中有相关介绍。特征筛选方法则主要集中在第6章。在这一章的末尾,为读者展示了一个建立评分卡模型的案例。希望读者通过该案例可以理解前6章所介绍技术是如何应用的。
第7章主要介绍如何对建立好的评分卡模型进行拒绝推断。信用评分模型本身是一种拥有拒绝属性的模型。幸存者偏差问题会导致每次迭代的模型逐渐偏离真实环境下的数据分布,因此需要通过数据验证、标签分裂、数据推断等方法,对现有模型进行修正。
第8章主要介绍评分卡模型建立之后的应用逻辑和校准方法。模型只是一种嵌入在策略体系中的技术手段,其本质是为策略服务的。在实际应用中,模型分数也常常作为一条单独的规则进行配置。由于一些难以避免的原因,评分卡模型通常需要进行校准,因此这一章对常用的校准方法及其使用场景进行了梳理。
第9章主要介绍模型开发后的记录工作。由于在实际工作中,常常需要多人进行交互,且经常需要回溯很久之前开发过的模型详情,因此保证每一个模型都拥有详细的记录是非常重要的。这一章给出了一个完整的评分卡模型开发文档,以便于读者参考,从而完善现有的模型记录文档。
Part2.内容特色
与市面上其他建模实战或机器学习等技术书籍相比,本书中主要使用Python语言编写,详细介绍了传统信用管理中所涉及的基础知识、技术与工程实现。从统计学、机器学习角度出发,系统、全面地介绍风险数据分析中的基础概念与建模技术。本书作为《智能风控》系列第二本书,主要是对《智能风控:原理、算法与工程实践》一书的基础内容进行补充。希望读者以本书为入门选择,将《智能风控:原理、算法与工程实践》一书作为进阶,能够由浅入深地掌握信贷领域的分析建模技术。
此外,市场上此类介绍数据建模、算法理论的书很容易就陷入平铺直述,条理性和严谨性有余而生动性不足的窘境。特别是对于广大初学者,一本容易看进去的书更为有价值。因此,笔者特邀请知名插画师——毛鑫宇,为本书手绘漫画与插图。从而使得本书内容表达形式生动、有趣、且贴近生活。希望读者阅读本书的过程中不会感到枯燥或乏味。
Part3.读者对象
该书主要面向希望从事风险控制的分析师、建模师、算法工程师,也适合有一定统计基础的在校学生、对使用Python实现自动化信用管理感兴趣的读者阅读。
Part4.目录
推荐序
前言
第1章 信用管理基础 /1
1.1 信用与管理 /2
1.2 风控术语解读 /3
1.2.1 信贷基础指标 /4
1.2.2 信贷风险指标 /5
1.3 企业信贷风控架构 /7
1.4 本章小结 /10第2章 评分卡 /11
2.1 评分卡概念 /12
2.1.1 适用客群 /13
2.1.2 用途 /14
2.2 建模流程 /15
2.3 模型设计 /16
2.3.1 业务问题转化 /17
2.3.2 账龄分析与时间窗口设计 /17
2.3.3 数据集切分 /192.3.4 样本选择 /20
2.3.5 采样与加权 /212.4 数据与变量解读 /25
2.5 本章小结 /26
第3章 机器学习 /27
3.1 基本概念 /28
3.1.1 空间表征 /29
3.1.2 模型学习 /31
3.1.3 模型评价 /32
3.2 广义线性模型 /33
3.2.1 多元线性回归模型 /34
3.2.2 经验风险与结构风险 /35
3.2.3 极大似然估计 /38
3.3 逻辑回归 /39
3.3.1 sigmoid函数 /40
3.3.2 zuida似然估计 /41
3.3.3 多项逻辑回归学习 /41
3.3.4 标准化 /42
3.4 性能度量 /44
3.4.1 误差 /45
3.4.2 混淆矩阵与衍生指标 /45
3.4.3 不均衡模型评价 /48
3.4.4 业务评价 /52
3.5 上线部署与监控 /55
3.5.1 上线部署 /55
3.5.2 前端监控 /57
3.5.3 后端监控 /59
3.6 迭代与重构 /61
3.6.1 模型迭代 /61
3.6.2 模型重构 /62
3.7 辅助模型 /62
3.7.1 XGBoost /63
3.7.2 模型解释性 /74
3.7.3 因子分解机 /81
3.8 模型合并 /82
3.9 本章小结 /86
第4章 用户分群 /87
4.1 辛普森悖论 /88
4.2 监督分群 /90
4.2.1 决策树原理 /90
4.2.2 决策树分群 /92
4.2.3 生成拒绝规则 /95
4.3 无监督分群 /105
4.3.1 GMM原理 /106
4.3.2 GMM分群 /107
4.4 用户画像与聚类分析 /108
4.4.1 数据分布可视化 /109
4.4.2 K均值聚类 /110
4.4.3 均值漂移聚类 /111
4.4.4 层次聚类 /113
4.4.5 tSNE聚类 /114
4.4.6 DBSCAN聚类 /115
4.4.7 方差分析 /117
4.5 本章小结 /119
第5章 数据探索与特征工程 /120
5.1 探索性数据分析 /121
5.1.1 连续型变量 /122
5.1.2 离散型变量 /123
5.1.3 代码实现 /123
5.2 特征生成 /126
5.2.1 特征聚合 /127
5.2.2 特征组合 /145
5.3 特征变换 /147
5.3.1 卡方分箱 /148
5.3.2 聚类分箱 /150
5.3.3 分箱对比 /151
5.3.4 箱的调整 /154
5.3.5 两种特殊的调整方法 /156
5.3.6 WOE映射 /158
5.4 本章小结 /158
第6章 特征筛选与建模 /159
6.1 初步筛选 /160
6.1.1 缺失率 /160
6.1.2 信息量 /161
6.1.3 相关性 /162
6.1.4 代码实现 /163
6.2 逐步回归 /164
6.2.1 F检验 /165
6.2.2 常见逐步回归策略 /165
6.2.3 检验标准 /166
6.2.4 代码实现 /167
6.3 稳定性 /167
6.4 负样本分布图 /169
6.5 评分卡案例 /171
6.6 本章小结 /189
第7章 拒绝推断 /190
7.1 偏差产生的原因 /191
7.2 数据验证 /193
7.3 标签分裂 /193
7.4 数据推断 /195
7.4.1 硬截断法 /195
7.4.2 模糊展开法 /198
7.4.3 重新加权法 /199
7.4.4 外推法 /200
7.4.5 迭代再分类法 /202
7.5 本章小结 /204
第8章 模型校准与决策 /205
8.1 模型校准的意义 /206
8.2 校准方法 /207
8.2.1 通用校准 /208
8.2.2 多模型校准 /210
8.2.3 错误分配 /214
8.2.4 权重还原 /215
8.3 决策与应用 /215
8.3.1 zuiyou评分切分 /216
8.3.2 交换集分析 /216
8.3.3 人工干预 /218
8.4 本章小结 /219
第9章 模型文档 /220
9.1 模型背景 /221
9.2 模型设计 /222
9.2.1 模型样本 /222
9.2.2 坏客户定义 /222
9.3 数据准备 /223
9.3.1 数据提取 /223
9.3.2 历史趋势聚合 /224
9.3.3 缺失值与极值处理 /224
9.3.4 WOE处理 /225
9.4 变量筛选 /225
9.4.1 根据IV值进行初筛 /226
9.4.2 逐步回归分析 /226
9.4.3 模型调优 /226
9.5 最终模型 /227
9.5.1 模型变量 /227
9.5.2 模型表现 /228
9.5.3 模型分制转换 /228
9.6 表现追踪 /228
9.7 附件 /229
9.8 本章小结 /231