当前位置：首页>python>拒绝推断策略:用Python解锁信贷风控中的隐藏信息

拒绝推断策略:用Python解锁信贷风控中的隐藏信息

2026-06-30 05:37:12

拒绝推断策略：用Python解锁信贷风控中的隐藏信息

在信贷风控建模中，我们经常面临一个棘手的问题：我们只知道被接受申请人的表现（好坏标签），而对于被拒绝的申请人，由于没有放款，我们无法观察到他们的表现。这就是所谓的"样本选择偏差"问题。拒绝推断（Reject Inference）正是为了解决这一问题而生的关键技术。

什么是拒绝推断？

拒绝推断是一组统计技术，用于推断被拒绝申请人的潜在表现。通过拒绝推断，我们可以：

• 更准确地评估整个申请人群体的风险
• 提高模型的预测能力
• 减少由于样本选择偏差导致的模型偏差

拒绝推断的主要方法

1. 简单赋值法

最简单直接的方法，包括全部接受法和全部拒绝法

2. 打包法

基于已知好坏标签的申请人特征，为被拒绝申请人分配标签

3. 期望最大化法

使用EM算法迭代估计被拒绝申请人的标签

4. 强化法

将模型应用于被拒绝人群，根据预测得分分配标签

Python代码实操

下面我们通过Python代码来演示几种常见的拒绝推断方法。

环境准备

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score, classification_report
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.mixture import GaussianMixture

数据准备与探索

# 生成模拟数据
np.random.seed(42)
n_samples = 10000

# 生成特征
data = pd.DataFrame({
'income': np.random.normal(50000, 15000, n_samples),
'age': np.random.normal(35, 10, n_samples),
'credit_score': np.random.normal(650, 100, n_samples),
'debt_to_income': np.random.normal(0.35, 0.1, n_samples)
})

# 生成真实标签（我们不知道的）
true_proba = 1 / (1 + np.exp(-(
    -3 + 0.00003 * data['income'] + 
0.02 * data['age'] + 
0.005 * data['credit_score'] - 
4 * data['debt_to_income'] +
    np.random.normal(0, 0.5, n_samples)
)))

data['true_label'] = np.random.binomial(1, true_proba)

# 模拟审批决策（基于一些规则）
data['approved'] = np.where(
    (data['credit_score'] > 600) & 
    (data['debt_to_income'] < 0.5) & 
    (data['income'] > 30000), 1, 0
)

# 我们只能观察到被接受申请人的标签
data['observed_label'] = np.where(data['approved'] == 1, data['true_label'], np.nan)

print(f"总体通过率: {data['approved'].mean():.2%}")
print(f"被接受人群坏账率: {data[data['approved'] == 1]['true_label'].mean():.2%}")
print(f"被拒绝人群真实坏账率: {data[data['approved'] == 0]['true_label'].mean():.2%}")

方法一：简单赋值法

defsimple_assignment_method(data):
"""简单赋值法 - 全部接受法"""
# 复制数据
    df = data.copy()

# 为被拒绝的申请人分配"好"标签（全部接受法）
    df['inferred_label'] = np.where(df['approved'] == 1, df['true_label'], 0)

# 或者为被拒绝的申请人分配"坏"标签（全部拒绝法）
# df['inferred_label'] = np.where(df['approved'] == 1, df['true_label'], 1)

return df

# 应用简单赋值法
simple_data = simple_assignment_method(data)

方法二：打包法

defparceling_method(data, n_bins=10):
"""打包法 - 基于得分区间分配标签"""
    df = data.copy()

# 只在接受样本上训练初始模型
    accepted_data = df[df['approved'] == 1].copy()

    X_train = accepted_data[['income', 'age', 'credit_score', 'debt_to_income']]
    y_train = accepted_data['true_label']

    model = LogisticRegression()
    model.fit(X_train, y_train)

# 为所有申请人预测得分
    X_all = df[['income', 'age', 'credit_score', 'debt_to_income']]
    df['score'] = model.predict_proba(X_all)[:, 1]

# 按得分分箱
    df['score_bin'] = pd.qcut(df['score'], n_bins, duplicates='drop')

# 在每个分箱内，计算接受样本的坏账率
    bin_bad_rate = df[df['approved'] == 1].groupby('score_bin')['true_label'].mean()

# 为被拒绝样本分配标签
    inferred_labels = []
for _, row in df.iterrows():
if row['approved'] == 1:
            inferred_labels.append(row['true_label'])
else:
            bin_rate = bin_bad_rate.get(row['score_bin'], 0.5)
# 根据坏账率随机分配标签
            inferred_labels.append(1if np.random.random() < bin_rate else0)

    df['inferred_label'] = inferred_labels
return df

# 应用打包法
parceling_data = parceling_method(data)

方法三：强化法

defaugmentation_method(data):
"""强化法"""
    df = data.copy()

# 第一步：在接受样本上训练模型
    accepted_data = df[df['approved'] == 1].copy()
    X_accept = accepted_data[['income', 'age', 'credit_score', 'debt_to_income']]
    y_accept = accepted_data['true_label']

    model = LogisticRegression()
    model.fit(X_accept, y_accept)

# 第二步：为所有被拒绝申请人预测得分
    rejected_data = df[df['approved'] == 0].copy()
    X_reject = rejected_data[['income', 'age', 'credit_score', 'debt_to_income']]
    reject_scores = model.predict_proba(X_reject)[:, 1]

# 第三步：根据得分分配标签（使用阈值）
    threshold = np.percentile(reject_scores, 70)  # 得分最高的30%标记为坏
    rejected_inferred = (reject_scores > threshold).astype(int)

# 合并标签
    df['inferred_label'] = df['true_label'].copy()
    df.loc[df['approved'] == 0, 'inferred_label'] = rejected_inferred

return df

# 应用强化法
augmentation_data = augmentation_method(data)

方法四：期望最大化法（EM算法）

defem_reject_inference(data, max_iter=50, tol=1e-4):
"""使用EM算法进行拒绝推断"""
    df = data.copy()

# 准备特征数据
    features = ['income', 'age', 'credit_score', 'debt_to_income']
    X = df[features]

# 初始模型：只在接受样本上训练
    accepted_idx = df[df['approved'] == 1].index
    X_accept = df.loc[accepted_idx, features]
    y_accept = df.loc[accepted_idx, 'true_label']

    model = LogisticRegression()
    model.fit(X_accept, y_accept)

# EM算法迭代
for iteration inrange(max_iter):
# E步：为被拒绝样本估计标签概率
        rejected_idx = df[df['approved'] == 0].index
        X_reject = df.loc[rejected_idx, features]
        reject_proba = model.predict_proba(X_reject)[:, 1]

# M步：用所有样本重新训练模型（使用加权样本）
# 创建权重数组：接受样本权重为1，拒绝样本权重为预测概率
        weights = np.ones(len(df))
        weights[rejected_idx] = reject_proba

# 为拒绝样本创建"伪标签"权重
        y_full = df['true_label'].copy()
        y_full[rejected_idx] = 1# 暂时赋值为1，但通过权重调整

# 重新训练模型
        prev_coef = model.coef_.copy()
        model.fit(X, y_full, sample_weight=weights)

# 检查收敛性
if np.max(np.abs(model.coef_ - prev_coef)) < tol:
print(f"EM算法在第{iteration+1}次迭代收敛")
break

# 为所有样本分配推断标签
    all_proba = model.predict_proba(X)[:, 1]
    df['inferred_label'] = (all_proba > 0.5).astype(int)
    df['inferred_proba'] = all_proba

return df, model

# 应用EM算法
em_data, em_model = em_reject_inference(data)

方法评估与比较

defevaluate_methods(original_data, methods_data, method_names):
"""评估不同拒绝推断方法的效果"""
    results = {}

for i, method_data inenumerate(methods_data):
        method_name = method_names[i]

# 只评估被拒绝样本的推断准确性
        rejected_data = method_data[method_data['approved'] == 0]
        accuracy = (rejected_data['inferred_label'] == rejected_data['true_label']).mean()

# 计算总体分布
        overall_bad_rate = method_data['inferred_label'].mean()
        true_overall_bad_rate = original_data['true_label'].mean()

        results[method_name] = {
'rejected_accuracy': accuracy,
'inferred_bad_rate': overall_bad_rate,
'true_bad_rate': true_overall_bad_rate,
'bias': abs(overall_bad_rate - true_overall_bad_rate)
        }

return pd.DataFrame(results).T

# 准备所有方法的结果
all_methods_data = [simple_data, parceling_data, augmentation_data, em_data]
method_names = ['简单赋值法', '打包法', '强化法', 'EM算法']

# 评估所有方法
results_df = evaluate_methods(data, all_methods_data, method_names)
print(results_df)

可视化比较

defplot_method_comparison(results_df):
"""绘制方法比较图"""
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# 准确率比较
    methods = results_df.index
    accuracy = results_df['rejected_accuracy']

    ax1.bar(methods, accuracy)
    ax1.set_title('被拒绝样本推断准确率')
    ax1.set_ylabel('准确率')
    ax1.tick_params(axis='x', rotation=45)

# 坏账率偏差比较
    bias = results_df['bias']

    ax2.bar(methods, bias)
    ax2.set_title('总体坏账率估计偏差')
    ax2.set_ylabel('绝对偏差')
    ax2.tick_params(axis='x', rotation=45)

    plt.tight_layout()
    plt.show()

# 绘制比较图
plot_method_comparison(results_df)

实际应用建议

何时使用拒绝推断？

• 当被拒绝比例较高时（>20%）
• 当接受样本和拒绝样本存在显著差异时
• 当需要部署更准确的风险模型时

方法选择指南

1. 简单赋值法：适合初步分析或作为基准
2. 打包法：平衡简单性和准确性，适合大多数场景
3. 强化法：当有领域知识或明确阈值时
4. EM算法：追求最高准确性，计算资源充足时

注意事项

• 拒绝推断仍然基于假设，结果需要谨慎解读
• 不同方法可能产生不同结果，建议尝试多种方法
• 定期验证和更新拒绝推断模型
• 结合业务理解和统计检验评估结果合理性

结语

拒绝推断是信贷风控中处理样本选择偏差的重要技术。通过Python实现各种拒绝推断方法，我们可以更好地利用可用数据，提高风险模型的准确性和稳定性。在实际应用中，建议根据具体业务场景和数据特点选择合适的方法，并持续监控和优化模型效果。

记住，没有一种方法在所有情况下都是最优的，关键是理解每种方法的假设和局限性，并结合业务知识做出最佳决策。

免费读1000本书

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

拒绝推断策略:用Python解锁信贷风控中的隐藏信息

拒绝推断策略：用Python解锁信贷风控中的隐藏信息

什么是拒绝推断？

拒绝推断的主要方法

1. 简单赋值法

2. 打包法

3. 期望最大化法

4. 强化法

Python代码实操

环境准备

数据准备与探索

方法一：简单赋值法

方法二：打包法

方法三：强化法

方法四：期望最大化法（EM算法）

方法评估与比较

可视化比较

实际应用建议

何时使用拒绝推断？

方法选择指南

注意事项

结语

最新文章

热门文章

随机文章

拒绝推断策略:用Python解锁信贷风控中的隐藏信息

拒绝推断策略：用Python解锁信贷风控中的隐藏信息

什么是拒绝推断？

拒绝推断的主要方法

1. 简单赋值法

2. 打包法

3. 期望最大化法

4. 强化法

Python代码实操

环境准备

数据准备与探索

方法一：简单赋值法

方法二：打包法

方法三：强化法

方法四：期望最大化法（EM算法）

方法评估与比较

可视化比较

实际应用建议

何时使用拒绝推断？

方法选择指南

注意事项

结语

新增FastAPI后端支持,这个Python全栈应用框架太强了!

Python 多线程 vs 多进程,一次说清楚(附完整代码)

最新文章

热门文章

随机文章