一、开篇故事:小白的困惑与突破
看到同事们在讨论“AUC”、“KS值”、“WOE编码”时,小李完全懵了。领导让他研究评分卡模型,他打开一篇技术文章,满屏的数学公式和代码让他头皮发麻。
“我是不是不适合做风控?” 小李差点打了退堂鼓。
但三个月后,小李不仅独立完成了第一个评分卡模型,还成功应用到实际业务中,将审批通过率提升了15%。
二、评分卡到底是什么?一句话讲明白
想象一下你去银行申请信用卡,银行怎么判断该不该批卡?
评分卡就是银行的“智能打分器”:
总分 = 各特征得分相加
如果总分超过600分,通过;低于550分,拒绝;中间的需要人工审核。
就这么简单!评分卡本质上就是一个打分系统,把客户的各个特征转换成分数,然后加起来得到一个总分,根据总分做决策。
三、环境准备:5分钟搞定Python配置
很多小白卡在了第一步——环境安装。别怕,跟着我做:
3.1 最简单的安装方式:Anaconda
- 1. 下载安装:去Anaconda官网(https://www.anaconda.com/)下载安装包,就像安装QQ一样简单
- 2. 打开Jupyter Notebook:
# 在开始菜单找到并打开 Anaconda Navigator# 点击 Jupyter Notebook 的 Launch 按钮
3.2 安装必要的库
在Jupyter的第一个单元格中输入并运行:
# 运行这个单元格:点击单元格,按 Shift+Enter!pip install pandas numpy matplotlib scikit-learn --user
看到“Successfully installed”就成功了!
四、实战开始:一步步构建你的第一个评分卡
4.1 数据准备:模拟一份最简单的信贷数据
我们先不用复杂的数据,自己创建一个简单的数据集:
import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# 设置中文显示plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False# 用来正常显示负号# 创建1000个虚拟客户数据np.random.seed(42) # 固定随机种子,确保结果可重复data = {'客户ID': range(1, 1001),'年龄': np.random.randint(20, 60, 1000),'月收入(元)': np.random.randint(3000, 30000, 1000),'信用卡数量': np.random.randint(0, 6, 1000),'是否有房贷': np.random.choice([0, 1], 1000, p=[0.7, 0.3]), # 0=无,1=有'历史逾期次数': np.random.randint(0, 4, 1000),'是否违约': np.random.choice([0, 1], 1000, p=[0.85, 0.15]) # 0=好客户,1=坏客户}# 创建DataFrame(可以理解为Excel表格)df = pd.DataFrame(data)print("数据预览:")print(df.head()) # 显示前5行print(f"\n数据形状:{df.shape}") # (行数, 列数)print(f"违约率:{df['是否违约'].mean():.1%}") # 计算违约比例
运行后你会看到:
客户ID 年龄 月收入(元) 信用卡数量 是否有房贷 历史逾期次数 是否违约0 1 35 15000 2 0 0 01 2 28 8000 1 0 1 02 3 45 25000 3 1 0 13 4 52 18000 0 0 2 04 5 31 22000 2 1 1 1数据形状:(1000, 7)违约率:15.1%
看!你已经创建了1000个虚拟客户数据,有年龄、收入、信用记录,还有是否违约的标签。
4.2 数据探索:像侦探一样发现规律
建模前要先了解数据,这是最重要的一步:
# 1. 基本信息查看print("数据基本信息:")print(df.info())print("\n数值型统计信息:")print(df.describe())# 2. 可视化探索fig, axes = plt.subplots(2, 3, figsize=(15, 10))# 年龄分布axes[0, 0].hist(df['年龄'], bins=20, color='skyblue', edgecolor='black')axes[0, 0].set_xlabel('年龄')axes[0, 0].set_ylabel('人数')axes[0, 0].set_title('年龄分布')# 收入分布axes[0, 1].hist(df['月收入(元)'], bins=20, color='lightgreen', edgecolor='black')axes[0, 1].set_xlabel('月收入(元)')axes[0, 1].set_title('收入分布')# 违约情况default_counts = df['是否违约'].value_counts()axes[0, 2].pie(default_counts.values, labels=['好客户', '坏客户'], autopct='%1.1f%%', colors=['lightblue', 'lightcoral'])axes[0, 2].set_title('好坏客户比例')# 年龄 vs 违约率age_groups = pd.cut(df['年龄'], bins=[20, 30, 40, 50, 60])default_by_age = df.groupby(age_groups)['是否违约'].mean()axes[1, 0].bar(range(len(default_by_age)), default_by_age.values, color='orange', tick_label=default_by_age.index.astype(str))axes[1, 0].set_xlabel('年龄段')axes[1, 0].set_ylabel('违约率')axes[1, 0].set_title('各年龄段违约率')# 收入 vs 违约率income_groups = pd.cut(df['月收入(元)'], bins=[3000, 10000, 20000, 30000])default_by_income = df.groupby(income_groups)['是否违约'].mean()axes[1, 1].bar(range(len(default_by_income)), default_by_income.values, color='purple', tick_label=default_by_income.index.astype(str))axes[1, 1].set_xlabel('收入段')axes[1, 1].set_ylabel('违约率')axes[1, 1].set_title('各收入段违约率')# 逾期次数 vs 违约率default_by_overdue = df.groupby('历史逾期次数')['是否违约'].mean()axes[1, 2].plot(default_by_overdue.index, default_by_income.values, 'ro-', linewidth=2, markersize=8)axes[1, 2].set_xlabel('历史逾期次数')axes[1, 2].set_ylabel('违约率')axes[1, 2].set_title('逾期次数与违约率关系')axes[1, 2].grid(True, alpha=0.3)plt.tight_layout()plt.show()
运行代码后,你会看到6张图表。发现了什么规律?
这就是数据探索的魅力——用数据说话,而不是凭感觉!
4.3 特征工程:把原始数据变成模型能懂的语言
原始数据不能直接扔给模型,需要先“翻译”一下:
# 1. 处理缺失值(我们的数据没有缺失,但实际数据常有缺失)print("检查缺失值:")print(df.isnull().sum())# 2. 创建新特征 - 这是加分项!# 负债收入比(假设每个信用卡负债5000元)df['总负债'] = df['信用卡数量'] * 5000 + df['是否有房贷'] * 500000df['负债收入比'] = df['总负债'] / df['月收入(元)']# 3. 异常值处理 - 比如收入为0或负数# 这里我们假设收入大于3000,已经处理过了# 4. 特征选择 - 选择对预测违约有用的特征features = ['年龄', '月收入(元)', '信用卡数量', '是否有房贷', '历史逾期次数', '负债收入比']target = '是否违约'X = df[features] # 特征矩阵y = df[target] # 目标变量print("\n特征矩阵形状:", X.shape)print("前5行特征:")print(X.head())
4.4 模型训练:三行代码构建评分卡模型
激动人心的时刻来了!我们用逻辑回归模型(评分卡最常用的模型):
from sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_score, roc_auc_score# 1. 划分训练集和测试集(80%训练,20%测试)X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y)print(f"训练集大小:{X_train.shape}")print(f"测试集大小:{X_test.shape}")print(f"训练集违约率:{y_train.mean():.1%}")print(f"测试集违约率:{y_test.mean():.1%}")# 2. 训练模型 - 就三行代码!model = LogisticRegression(random_state=42, max_iter=1000)model.fit(X_train, y_train)print("\n模型训练完成!")print(f"模型参数:{model.coef_}")print(f"模型截距:{model.intercept_}")
4.5 模型评估:你的模型靠谱吗?
模型训练好了,怎么知道它好不好?
# 1. 在测试集上预测y_pred = model.predict(X_test)y_pred_proba = model.predict_proba(X_test)[:, 1] # 预测为违约的概率# 2. 计算准确率accuracy = accuracy_score(y_test, y_pred)print(f"模型准确率:{accuracy:.2%}")# 3. 计算AUC(风控最重要的指标之一)auc = roc_auc_score(y_test, y_pred_proba)print(f"AUC值:{auc:.4f}")# 4. 制作混淆矩阵from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplaycm = confusion_matrix(y_test, y_pred)disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['好客户', '坏客户'])disp.plot(cmap='Blues')plt.title('混淆矩阵')plt.show()# 5. 特征重要性分析feature_importance = pd.DataFrame({'特征': features,'系数绝对值': np.abs(model.coef_[0])}).sort_values('系数绝对值', ascending=False)print("\n特征重要性排序:")print(feature_importance)
重点理解:
- • AUC:衡量模型区分好坏客户的能力,0.5是瞎猜,1是完美,0.7以上就不错了
4.6 模型解释:为什么这个客户被拒绝了?
评分卡最大的优点就是可解释性:
# 1. 查看一个具体客户的预测sample_customer = X_test.iloc[0:1] # 取第一个测试客户print("客户特征:")print(sample_customer)# 预测概率prob = model.predict_proba(sample_customer)[0, 1]print(f"\n该客户违约概率:{prob:.1%}")# 2. 计算每个特征的贡献分coefficients = model.coef_[0]intercept = model.intercept_[0]# 逻辑回归的原始公式:z = b0 + b1*x1 + b2*x2 + ...customer_values = sample_customer.values[0]z = intercept + np.sum(coefficients * customer_values)# 转换为概率:p = 1 / (1 + e^(-z))probability = 1 / (1 + np.exp(-z))print(f"\n计算过程验证:")print(f"线性组合 z = {z:.4f}")print(f"转换后概率 = {probability:.4f}")# 3. 可视化特征贡献contributions = coefficients * customer_valuestotal = intercept + np.sum(contributions)plt.figure(figsize=(10, 6))bars = plt.barh(range(len(features)), contributions)plt.yticks(range(len(features)), features)plt.xlabel('特征贡献值')plt.title('各特征对评分的影响')plt.axvline(x=0, color='black', linestyle='-', linewidth=0.5)# 标记正负贡献for i, (bar, val) inenumerate(zip(bars, contributions)): color = 'green'if val > 0else'red' bar.set_color(color)plt.tight_layout()plt.show()print("\n业务解读:")for i, feature inenumerate(features): contribution = contributions[i] direction = "加分"if contribution < 0else"减分"# 注意:负系数表示降低违约概率print(f"{feature}: {contribution:.4f} ({direction})")
看明白了吗?模型不仅能预测,还能告诉我们为什么:
这就是评分卡在金融风控中不可替代的原因——透明、可解释、符合业务逻辑。
4.7 评分转换:把概率变成业务熟悉的分数
银行同事不懂概率,但懂分数。我们来把概率转换成600-850的评分:
defprobability_to_score(prob, base_score=600, pdo=50, base_odds=50):""" 将概率转换为评分卡分数 参数: prob: 违约概率 base_score: 基准分(当好坏比为base_odds:1时的分数) pdo: Points to Double the Odds(好坏比翻倍所需的分数) base_odds: 基准好坏比 公式:Score = base_score + pdo * log2(Odds / base_odds) """ odds = (1 - prob) / (prob + 1e-10) # 避免除零 score = base_score + pdo * np.log2(odds / base_odds)return score# 为所有客户计算分数df['违约概率'] = model.predict_proba(X)[:, 1]df['评分'] = df['违约概率'].apply(lambda p: probability_to_score(p))# 分数分布分析plt.figure(figsize=(12, 5))plt.subplot(1, 2, 1)plt.hist(df['评分'], bins=30, color='skyblue', edgecolor='black', alpha=0.7)plt.xlabel('评分')plt.ylabel('人数')plt.title('评分分布')plt.grid(True, alpha=0.3)plt.subplot(1, 2, 2)# 按评分分组看违约率df['评分分组'] = pd.cut(df['评分'], bins=10)default_by_score = df.groupby('评分分组')['是否违约'].mean()plt.bar(range(len(default_by_score)), default_by_score.values, color='orange', alpha=0.7)plt.xticks(range(len(default_by_score)), [str(x) for x in default_by_score.index], rotation=45)plt.xlabel('评分分组')plt.ylabel('违约率')plt.title('不同评分的违约率')plt.grid(True, alpha=0.3)plt.tight_layout()plt.show()# 设定决策阈值print("\n基于评分的决策规则:")print("="*50)for threshold in [550, 600, 650, 700]: approve_rate = (df['评分'] >= threshold).mean() default_rate = df[df['评分'] >= threshold]['是否违约'].mean()print(f"如果批准评分≥{threshold}的客户:")print(f" - 批准率:{approve_rate:.1%}")print(f" - 批准客户的违约率:{default_rate:.1%}")print()
现在,你有了一个完整的评分系统:
- • 中分客户(550-650分):中等风险,需要人工审核
五、避坑指南:新手常犯的5个错误
在我带新人的过程中,发现大家常犯这些错误:
错误1:不看数据直接建模
正确做法:先花70%的时间做数据探索和理解
错误2:过度追求复杂模型
新手建议:从逻辑回归开始,它简单、可解释、效果不错
错误3:忽略业务常识
记住:月收入500万的客户和年龄120岁的客户,大概率是数据错误
错误4:不做特征工程
技巧:创造"负债收入比"这样的业务特征,往往比原始特征更有效
错误5:不在测试集上验证
黄金法则:永远用没见过的数据(测试集)评估模型
六、下一步学习路径
恭喜!你已经完成了第一个评分卡模型。接下来可以:
1. 本周内:夯实基础
2. 一个月内:进阶学习
3. 三个月内:实战项目
欢迎添加:
公众号:消费金融风控联盟,ID:xiaojinfengkong欢迎加入联盟粉丝通讯录:免费加入+免费发布信息,Vivian:13911850028回复通讯录欢迎加入风控干货知识星球:详情可添加管理Vivian:13911850028回复知识星球