【风控指标】 模型稳定性指标PSI指标

在风控的实际工作中, 模型是特定时期的样本所开发的, 可能在构建时期符合场景,但是随着时间的推移模型就会失效.因此模型稳定性在风控中是评价模型的重要指标.

稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指标.

模型稳定性是什么

在控制领域中,稳定代表着某项指标波动小(例如低方差), 指标曲线几乎是一条水平的直线.

在数学中利用变异系数(Coefficient of Variation,CV)来衡量这种数据波动水平.变异系数越小,代表波动越小,稳定性越好.

\[ C·V =( SD / Mean )× 100\% \]

  • SD 代表标准方差
  • Mean 代表平均值

而在在机器学习建模时,是基于假设"历史样本分布等于未来样本分布"进行训练(详情见VC维)

模型或变量稳定 <=> 未来样本分布与历史样本分布之间的偏差小

什么是群体稳定性指标

PSI定义及公式

PSI反映了验证样本在各个桶的分布与建模样本分布的稳定性.在建模中,常用来筛选特征变量、评估模型稳定性.

  • 建模样本包括训练样本(In the Sample, INS)作为预期分布
  • 验证样本包括样本外(Out of Sample,OOS)和跨时间样本(Out of Time,OOT)用来代表实际分布(actual)

\[ psi=\sum_{i=1}^{n}{(A_i - E_i)} \ast ln(A_i / E_i)\tag{2.1.1} \]

PSI = SUM( (实际占比 - 预期占比)* ln(实际占比 / 预期占比) )

PSI计算步骤

  1. 将变量预期分布(训练样本)进行分箱离散化,统计各个分箱里的样本占比.
  2. 按相同分箱区间,对实际分布(actual)统计各分箱内的样本占比.
  3. 计算各分箱内的 \(A - E\)\(ln(A / E)\),计算 index = (实际占比 - 预期占比)*ln(实际占比/预期占比).
  4. 将各分箱的index进行求和,即得到最终的PSI.

PSI结果含义

PSI数值越小,两个分布之间的差异就越小,代表越稳定.

图1: PSI结果含义

PSI与KL散度

什么是KL散度

相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布间差异的非对称性度量.

相对熵可以衡量两个随机分布之间的"距离", 最主要关注的是其非对称性, 其主要衡量两个分布的单向距离.

当两个随机分布相同时,它们的相对熵为零;当两个随机分布的差别增大时,它们的相对熵也会增大.

PSI的公式含义

\[ \begin{aligned} psi&=\sum_{i=1}^{n}(A_i-E_i) \ast \ln(A_i / E_i) \\ &=\sum_{i=1}^{n} A_i \ast \ln(A_i / E_i) + \sum_{i=1}^{n} E_i \ast \ln(E_i / A_i) \end{aligned} \tag{3.2.1} \]

  • 第1项:实际分布(A)与预期分布(E)之间的KL散度- \(KL(A||E)\)
  • 第2项:预期分布(E)与实际分布(A)之间的KL散度- \(KL(E||A)\)

PSI本质上是实际分布(A)与预期分布(E)的KL散度的一个对称化操作.其双向计算相对熵,并把两部分相对熵相加,从而更为全面地描述两个分布的差异.

参考资料


【风控指标】 模型稳定性指标PSI指标
https://www.windism.cn/2770156360.html
作者
windism
发布于
2020年12月28日
许可协议