【风控指标】 模型稳定性指标PSI指标
在风控的实际工作中, 模型是特定时期的样本所开发的, 可能在构建时期符合场景,但是随着时间的推移模型就会失效.因此模型稳定性在风控中是评价模型的重要指标.
稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指标.
模型稳定性是什么
在控制领域中,稳定代表着某项指标波动小(例如低方差), 指标曲线几乎是一条水平的直线.
在数学中利用变异系数(Coefficient of Variation,CV
)来衡量这种数据波动水平.变异系数越小,代表波动越小,稳定性越好.
\[ C·V =( SD / Mean )× 100\% \]
SD
代表标准方差Mean
代表平均值
而在在机器学习建模时,是基于假设"历史样本分布等于未来样本分布"进行训练(详情见VC维
)
模型或变量稳定 <=> 未来样本分布与历史样本分布之间的偏差小
什么是群体稳定性指标
PSI定义及公式
PSI反映了验证样本在各个桶的分布与建模样本分布的稳定性.在建模中,常用来筛选特征变量、评估模型稳定性.
- 建模样本包括训练样本(In the Sample, INS)作为预期分布
- 验证样本包括样本外(Out of Sample,OOS)和跨时间样本(Out of Time,OOT)用来代表实际分布(actual)
\[ psi=\sum_{i=1}^{n}{(A_i - E_i)} \ast ln(A_i / E_i)\tag{2.1.1} \]
PSI = SUM( (实际占比 - 预期占比)* ln(实际占比 / 预期占比) )
PSI计算步骤
- 将变量预期分布(训练样本)进行分箱离散化,统计各个分箱里的样本占比.
- 按相同分箱区间,对实际分布(actual)统计各分箱内的样本占比.
- 计算各分箱内的 \(A - E\) 和 \(ln(A / E)\),计算
index = (实际占比 - 预期占比)*ln(实际占比/预期占比)
. - 将各分箱的
index
进行求和,即得到最终的PSI
.
PSI结果含义
PSI数值越小,两个分布之间的差异就越小,代表越稳定.

PSI与KL散度
什么是KL散度
相对熵(relative entropy),又被称为
Kullback-Leibler
散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布间差异的非对称性度量.
相对熵可以衡量两个随机分布之间的"距离",
最主要关注的是其非对称性
,
其主要衡量两个分布的单向距离.
当两个随机分布相同时,它们的相对熵为零;当两个随机分布的差别增大时,它们的相对熵也会增大.
PSI的公式含义
\[ \begin{aligned} psi&=\sum_{i=1}^{n}(A_i-E_i) \ast \ln(A_i / E_i) \\ &=\sum_{i=1}^{n} A_i \ast \ln(A_i / E_i) + \sum_{i=1}^{n} E_i \ast \ln(E_i / A_i) \end{aligned} \tag{3.2.1} \]
- 第1项:实际分布(A)与预期分布(E)之间的KL散度- \(KL(A||E)\)
- 第2项:预期分布(E)与实际分布(A)之间的KL散度- \(KL(E||A)\)
PSI本质上是实际分布(A)与预期分布(E)的KL散度的一个对称化操作.其双向计算相对熵,并把两部分相对熵相加,从而更为全面地描述两个分布的差异.