拒绝推断策略:用Python解锁信贷风控中的隐藏信息
在信贷风控建模中,我们经常面临一个棘手的问题:我们只知道被接受申请人的表现(好坏标签),而对于被拒绝的申请人,由于没有放款,我们无法观察到他们的表现。这就是所谓的"样本选择偏差"问题。拒绝推断(Reject Inference)正是为了解决这一问题而生的关键技术。
什么是拒绝推断?
拒绝推断是一组统计技术,用于推断被拒绝申请人的潜在表现。通过拒绝推断,我们可以:
拒绝推断的主要方法
1. 简单赋值法
最简单直接的方法,包括全部接受法和全部拒绝法
2. 打包法
基于已知好坏标签的申请人特征,为被拒绝申请人分配标签
3. 期望最大化法
使用EM算法迭代估计被拒绝申请人的标签
4. 强化法
将模型应用于被拒绝人群,根据预测得分分配标签
Python代码实操
下面我们通过Python代码来演示几种常见的拒绝推断方法。
环境准备
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score, classification_report
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.mixture import GaussianMixture
数据准备与探索
# 生成模拟数据
np.random.seed(42)
n_samples = 10000
# 生成特征
data = pd.DataFrame({
'income': np.random.normal(50000, 15000, n_samples),
'age': np.random.normal(35, 10, n_samples),
'credit_score': np.random.normal(650, 100, n_samples),
'debt_to_income': np.random.normal(0.35, 0.1, n_samples)
})
# 生成真实标签(我们不知道的)
true_proba = 1 / (1 + np.exp(-(
-3 + 0.00003 * data['income'] +
0.02 * data['age'] +
0.005 * data['credit_score'] -
4 * data['debt_to_income'] +
np.random.normal(0, 0.5, n_samples)
)))
data['true_label'] = np.random.binomial(1, true_proba)
# 模拟审批决策(基于一些规则)
data['approved'] = np.where(
(data['credit_score'] > 600) &
(data['debt_to_income'] < 0.5) &
(data['income'] > 30000), 1, 0
)
# 我们只能观察到被接受申请人的标签
data['observed_label'] = np.where(data['approved'] == 1, data['true_label'], np.nan)
print(f"总体通过率: {data['approved'].mean():.2%}")
print(f"被接受人群坏账率: {data[data['approved'] == 1]['true_label'].mean():.2%}")
print(f"被拒绝人群真实坏账率: {data[data['approved'] == 0]['true_label'].mean():.2%}")
方法一:简单赋值法
defsimple_assignment_method(data):
"""简单赋值法 - 全部接受法"""
# 复制数据
df = data.copy()
# 为被拒绝的申请人分配"好"标签(全部接受法)
df['inferred_label'] = np.where(df['approved'] == 1, df['true_label'], 0)
# 或者为被拒绝的申请人分配"坏"标签(全部拒绝法)
# df['inferred_label'] = np.where(df['approved'] == 1, df['true_label'], 1)
return df
# 应用简单赋值法
simple_data = simple_assignment_method(data)
方法二:打包法
defparceling_method(data, n_bins=10):
"""打包法 - 基于得分区间分配标签"""
df = data.copy()
# 只在接受样本上训练初始模型
accepted_data = df[df['approved'] == 1].copy()
X_train = accepted_data[['income', 'age', 'credit_score', 'debt_to_income']]
y_train = accepted_data['true_label']
model = LogisticRegression()
model.fit(X_train, y_train)
# 为所有申请人预测得分
X_all = df[['income', 'age', 'credit_score', 'debt_to_income']]
df['score'] = model.predict_proba(X_all)[:, 1]
# 按得分分箱
df['score_bin'] = pd.qcut(df['score'], n_bins, duplicates='drop')
# 在每个分箱内,计算接受样本的坏账率
bin_bad_rate = df[df['approved'] == 1].groupby('score_bin')['true_label'].mean()
# 为被拒绝样本分配标签
inferred_labels = []
for _, row in df.iterrows():
if row['approved'] == 1:
inferred_labels.append(row['true_label'])
else:
bin_rate = bin_bad_rate.get(row['score_bin'], 0.5)
# 根据坏账率随机分配标签
inferred_labels.append(1if np.random.random() < bin_rate else0)
df['inferred_label'] = inferred_labels
return df
# 应用打包法
parceling_data = parceling_method(data)
方法三:强化法
defaugmentation_method(data):
"""强化法"""
df = data.copy()
# 第一步:在接受样本上训练模型
accepted_data = df[df['approved'] == 1].copy()
X_accept = accepted_data[['income', 'age', 'credit_score', 'debt_to_income']]
y_accept = accepted_data['true_label']
model = LogisticRegression()
model.fit(X_accept, y_accept)
# 第二步:为所有被拒绝申请人预测得分
rejected_data = df[df['approved'] == 0].copy()
X_reject = rejected_data[['income', 'age', 'credit_score', 'debt_to_income']]
reject_scores = model.predict_proba(X_reject)[:, 1]
# 第三步:根据得分分配标签(使用阈值)
threshold = np.percentile(reject_scores, 70) # 得分最高的30%标记为坏
rejected_inferred = (reject_scores > threshold).astype(int)
# 合并标签
df['inferred_label'] = df['true_label'].copy()
df.loc[df['approved'] == 0, 'inferred_label'] = rejected_inferred
return df
# 应用强化法
augmentation_data = augmentation_method(data)
方法四:期望最大化法(EM算法)
defem_reject_inference(data, max_iter=50, tol=1e-4):
"""使用EM算法进行拒绝推断"""
df = data.copy()
# 准备特征数据
features = ['income', 'age', 'credit_score', 'debt_to_income']
X = df[features]
# 初始模型:只在接受样本上训练
accepted_idx = df[df['approved'] == 1].index
X_accept = df.loc[accepted_idx, features]
y_accept = df.loc[accepted_idx, 'true_label']
model = LogisticRegression()
model.fit(X_accept, y_accept)
# EM算法迭代
for iteration inrange(max_iter):
# E步:为被拒绝样本估计标签概率
rejected_idx = df[df['approved'] == 0].index
X_reject = df.loc[rejected_idx, features]
reject_proba = model.predict_proba(X_reject)[:, 1]
# M步:用所有样本重新训练模型(使用加权样本)
# 创建权重数组:接受样本权重为1,拒绝样本权重为预测概率
weights = np.ones(len(df))
weights[rejected_idx] = reject_proba
# 为拒绝样本创建"伪标签"权重
y_full = df['true_label'].copy()
y_full[rejected_idx] = 1# 暂时赋值为1,但通过权重调整
# 重新训练模型
prev_coef = model.coef_.copy()
model.fit(X, y_full, sample_weight=weights)
# 检查收敛性
if np.max(np.abs(model.coef_ - prev_coef)) < tol:
print(f"EM算法在第{iteration+1}次迭代收敛")
break
# 为所有样本分配推断标签
all_proba = model.predict_proba(X)[:, 1]
df['inferred_label'] = (all_proba > 0.5).astype(int)
df['inferred_proba'] = all_proba
return df, model
# 应用EM算法
em_data, em_model = em_reject_inference(data)
方法评估与比较
defevaluate_methods(original_data, methods_data, method_names):
"""评估不同拒绝推断方法的效果"""
results = {}
for i, method_data inenumerate(methods_data):
method_name = method_names[i]
# 只评估被拒绝样本的推断准确性
rejected_data = method_data[method_data['approved'] == 0]
accuracy = (rejected_data['inferred_label'] == rejected_data['true_label']).mean()
# 计算总体分布
overall_bad_rate = method_data['inferred_label'].mean()
true_overall_bad_rate = original_data['true_label'].mean()
results[method_name] = {
'rejected_accuracy': accuracy,
'inferred_bad_rate': overall_bad_rate,
'true_bad_rate': true_overall_bad_rate,
'bias': abs(overall_bad_rate - true_overall_bad_rate)
}
return pd.DataFrame(results).T
# 准备所有方法的结果
all_methods_data = [simple_data, parceling_data, augmentation_data, em_data]
method_names = ['简单赋值法', '打包法', '强化法', 'EM算法']
# 评估所有方法
results_df = evaluate_methods(data, all_methods_data, method_names)
print(results_df)
可视化比较
defplot_method_comparison(results_df):
"""绘制方法比较图"""
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
# 准确率比较
methods = results_df.index
accuracy = results_df['rejected_accuracy']
ax1.bar(methods, accuracy)
ax1.set_title('被拒绝样本推断准确率')
ax1.set_ylabel('准确率')
ax1.tick_params(axis='x', rotation=45)
# 坏账率偏差比较
bias = results_df['bias']
ax2.bar(methods, bias)
ax2.set_title('总体坏账率估计偏差')
ax2.set_ylabel('绝对偏差')
ax2.tick_params(axis='x', rotation=45)
plt.tight_layout()
plt.show()
# 绘制比较图
plot_method_comparison(results_df)
实际应用建议
何时使用拒绝推断?
方法选择指南
注意事项
结语
拒绝推断是信贷风控中处理样本选择偏差的重要技术。通过Python实现各种拒绝推断方法,我们可以更好地利用可用数据,提高风险模型的准确性和稳定性。在实际应用中,建议根据具体业务场景和数据特点选择合适的方法,并持续监控和优化模型效果。
记住,没有一种方法在所有情况下都是最优的,关键是理解每种方法的假设和局限性,并结合业务知识做出最佳决策。