当前位置：首页>python>Python评分卡模型入门

Python评分卡模型入门

2026-06-30 03:40:51

Python评分卡模型入门

一、开篇故事：小白的困惑与突破

看到同事们在讨论“AUC”、“KS值”、“WOE编码”时，小李完全懵了。领导让他研究评分卡模型，他打开一篇技术文章，满屏的数学公式和代码让他头皮发麻。

“我是不是不适合做风控？” 小李差点打了退堂鼓。

但三个月后，小李不仅独立完成了第一个评分卡模型，还成功应用到实际业务中，将审批通过率提升了15%。

二、评分卡到底是什么？一句话讲明白

想象一下你去银行申请信用卡，银行怎么判断该不该批卡？

评分卡就是银行的“智能打分器”：

• 你的年龄：+10分
• 你的收入：+30分
• 你的负债：-20分
• 你的信用记录：+25分

总分 = 各特征得分相加

如果总分超过600分，通过；低于550分，拒绝；中间的需要人工审核。

就这么简单！评分卡本质上就是一个打分系统，把客户的各个特征转换成分数，然后加起来得到一个总分，根据总分做决策。

三、环境准备：5分钟搞定Python配置

很多小白卡在了第一步——环境安装。别怕，跟着我做：

3.1 最简单的安装方式：Anaconda

1. 下载安装：去Anaconda官网（https://www.anaconda.com/）下载安装包，就像安装QQ一样简单

2. 打开Jupyter Notebook：

# 在开始菜单找到并打开 Anaconda Navigator# 点击 Jupyter Notebook 的 Launch 按钮

3. 新建Python文件：

• 点击右上角 New → Python 3
• 看到代码输入框了吗？恭喜，环境搞定！

3.2 安装必要的库

在Jupyter的第一个单元格中输入并运行：

# 运行这个单元格：点击单元格，按 Shift+Enter!pip install pandas numpy matplotlib scikit-learn --user

看到“Successfully installed”就成功了！

四、实战开始：一步步构建你的第一个评分卡

4.1 数据准备：模拟一份最简单的信贷数据

我们先不用复杂的数据，自己创建一个简单的数据集：

import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# 设置中文显示plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False# 用来正常显示负号# 创建1000个虚拟客户数据np.random.seed(42)  # 固定随机种子，确保结果可重复data = {'客户ID': range(1, 1001),'年龄': np.random.randint(20, 60, 1000),'月收入(元)': np.random.randint(3000, 30000, 1000),'信用卡数量': np.random.randint(0, 6, 1000),'是否有房贷': np.random.choice([0, 1], 1000, p=[0.7, 0.3]),  # 0=无，1=有'历史逾期次数': np.random.randint(0, 4, 1000),'是否违约': np.random.choice([0, 1], 1000, p=[0.85, 0.15])  # 0=好客户，1=坏客户}# 创建DataFrame（可以理解为Excel表格）df = pd.DataFrame(data)print("数据预览：")print(df.head())  # 显示前5行print(f"\n数据形状：{df.shape}")  # (行数, 列数)print(f"违约率：{df['是否违约'].mean():.1%}")  # 计算违约比例

运行后你会看到：

   客户ID  年龄  月收入(元)  信用卡数量  是否有房贷  历史逾期次数  是否违约0      1  35     15000         2         0           0        01      2  28      8000         1         0           1        02      3  45     25000         3         1           0        13      4  52     18000         0         0           2        04      5  31     22000         2         1           1        1数据形状：(1000, 7)违约率：15.1%

看！你已经创建了1000个虚拟客户数据，有年龄、收入、信用记录，还有是否违约的标签。

4.2 数据探索：像侦探一样发现规律

建模前要先了解数据，这是最重要的一步：

# 1. 基本信息查看print("数据基本信息：")print(df.info())print("\n数值型统计信息：")print(df.describe())# 2. 可视化探索fig, axes = plt.subplots(2, 3, figsize=(15, 10))# 年龄分布axes[0, 0].hist(df['年龄'], bins=20, color='skyblue', edgecolor='black')axes[0, 0].set_xlabel('年龄')axes[0, 0].set_ylabel('人数')axes[0, 0].set_title('年龄分布')# 收入分布axes[0, 1].hist(df['月收入(元)'], bins=20, color='lightgreen', edgecolor='black')axes[0, 1].set_xlabel('月收入(元)')axes[0, 1].set_title('收入分布')# 违约情况default_counts = df['是否违约'].value_counts()axes[0, 2].pie(default_counts.values, labels=['好客户', '坏客户'],                autopct='%1.1f%%', colors=['lightblue', 'lightcoral'])axes[0, 2].set_title('好坏客户比例')# 年龄 vs 违约率age_groups = pd.cut(df['年龄'], bins=[20, 30, 40, 50, 60])default_by_age = df.groupby(age_groups)['是否违约'].mean()axes[1, 0].bar(range(len(default_by_age)), default_by_age.values,                color='orange', tick_label=default_by_age.index.astype(str))axes[1, 0].set_xlabel('年龄段')axes[1, 0].set_ylabel('违约率')axes[1, 0].set_title('各年龄段违约率')# 收入 vs 违约率income_groups = pd.cut(df['月收入(元)'], bins=[3000, 10000, 20000, 30000])default_by_income = df.groupby(income_groups)['是否违约'].mean()axes[1, 1].bar(range(len(default_by_income)), default_by_income.values,               color='purple', tick_label=default_by_income.index.astype(str))axes[1, 1].set_xlabel('收入段')axes[1, 1].set_ylabel('违约率')axes[1, 1].set_title('各收入段违约率')# 逾期次数 vs 违约率default_by_overdue = df.groupby('历史逾期次数')['是否违约'].mean()axes[1, 2].plot(default_by_overdue.index, default_by_income.values, 'ro-', linewidth=2, markersize=8)axes[1, 2].set_xlabel('历史逾期次数')axes[1, 2].set_ylabel('违约率')axes[1, 2].set_title('逾期次数与违约率关系')axes[1, 2].grid(True, alpha=0.3)plt.tight_layout()plt.show()

运行代码后，你会看到6张图表。发现了什么规律？

• 年龄大的违约率更高还是更低？
• 收入高的客户更安全吗？
• 逾期次数越多，违约率是不是越高？

这就是数据探索的魅力——用数据说话，而不是凭感觉！

4.3 特征工程：把原始数据变成模型能懂的语言

原始数据不能直接扔给模型，需要先“翻译”一下：

# 1. 处理缺失值（我们的数据没有缺失，但实际数据常有缺失）print("检查缺失值：")print(df.isnull().sum())# 2. 创建新特征 - 这是加分项！# 负债收入比（假设每个信用卡负债5000元）df['总负债'] = df['信用卡数量'] * 5000 + df['是否有房贷'] * 500000df['负债收入比'] = df['总负债'] / df['月收入(元)']# 3. 异常值处理 - 比如收入为0或负数# 这里我们假设收入大于3000，已经处理过了# 4. 特征选择 - 选择对预测违约有用的特征features = ['年龄', '月收入(元)', '信用卡数量', '是否有房贷', '历史逾期次数', '负债收入比']target = '是否违约'X = df[features]  # 特征矩阵y = df[target]    # 目标变量print("\n特征矩阵形状：", X.shape)print("前5行特征：")print(X.head())

4.4 模型训练：三行代码构建评分卡模型

激动人心的时刻来了！我们用逻辑回归模型（评分卡最常用的模型）：

from sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_score, roc_auc_score# 1. 划分训练集和测试集（80%训练，20%测试）X_train, X_test, y_train, y_test = train_test_split(    X, y, test_size=0.2, random_state=42, stratify=y)print(f"训练集大小：{X_train.shape}")print(f"测试集大小：{X_test.shape}")print(f"训练集违约率：{y_train.mean():.1%}")print(f"测试集违约率：{y_test.mean():.1%}")# 2. 训练模型 - 就三行代码！model = LogisticRegression(random_state=42, max_iter=1000)model.fit(X_train, y_train)print("\n模型训练完成！")print(f"模型参数：{model.coef_}")print(f"模型截距：{model.intercept_}")

4.5 模型评估：你的模型靠谱吗？

模型训练好了，怎么知道它好不好？

# 1. 在测试集上预测y_pred = model.predict(X_test)y_pred_proba = model.predict_proba(X_test)[:, 1]  # 预测为违约的概率# 2. 计算准确率accuracy = accuracy_score(y_test, y_pred)print(f"模型准确率：{accuracy:.2%}")# 3. 计算AUC（风控最重要的指标之一）auc = roc_auc_score(y_test, y_pred_proba)print(f"AUC值：{auc:.4f}")# 4. 制作混淆矩阵from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplaycm = confusion_matrix(y_test, y_pred)disp = ConfusionMatrixDisplay(confusion_matrix=cm,                               display_labels=['好客户', '坏客户'])disp.plot(cmap='Blues')plt.title('混淆矩阵')plt.show()# 5. 特征重要性分析feature_importance = pd.DataFrame({'特征': features,'系数绝对值': np.abs(model.coef_[0])}).sort_values('系数绝对值', ascending=False)print("\n特征重要性排序：")print(feature_importance)

重点理解：

• 准确率：模型预测正确的比例
• AUC：衡量模型区分好坏客户的能力，0.5是瞎猜，1是完美，0.7以上就不错了
• 混淆矩阵：看模型在哪里犯错

4.6 模型解释：为什么这个客户被拒绝了？

评分卡最大的优点就是可解释性：

# 1. 查看一个具体客户的预测sample_customer = X_test.iloc[0:1]  # 取第一个测试客户print("客户特征：")print(sample_customer)# 预测概率prob = model.predict_proba(sample_customer)[0, 1]print(f"\n该客户违约概率：{prob:.1%}")# 2. 计算每个特征的贡献分coefficients = model.coef_[0]intercept = model.intercept_[0]# 逻辑回归的原始公式：z = b0 + b1*x1 + b2*x2 + ...customer_values = sample_customer.values[0]z = intercept + np.sum(coefficients * customer_values)# 转换为概率：p = 1 / (1 + e^(-z))probability = 1 / (1 + np.exp(-z))print(f"\n计算过程验证：")print(f"线性组合 z = {z:.4f}")print(f"转换后概率 = {probability:.4f}")# 3. 可视化特征贡献contributions = coefficients * customer_valuestotal = intercept + np.sum(contributions)plt.figure(figsize=(10, 6))bars = plt.barh(range(len(features)), contributions)plt.yticks(range(len(features)), features)plt.xlabel('特征贡献值')plt.title('各特征对评分的影响')plt.axvline(x=0, color='black', linestyle='-', linewidth=0.5)# 标记正负贡献for i, (bar, val) inenumerate(zip(bars, contributions)):    color = 'green'if val > 0else'red'    bar.set_color(color)plt.tight_layout()plt.show()print("\n业务解读：")for i, feature inenumerate(features):    contribution = contributions[i]    direction = "加分"if contribution < 0else"减分"# 注意：负系数表示降低违约概率print(f"{feature}: {contribution:.4f} ({direction})")

看明白了吗？模型不仅能预测，还能告诉我们为什么：

• 哪些特征让客户加分（降低违约概率）
• 哪些特征让客户减分（增加违约概率）

这就是评分卡在金融风控中不可替代的原因——透明、可解释、符合业务逻辑。

4.7 评分转换：把概率变成业务熟悉的分数

银行同事不懂概率，但懂分数。我们来把概率转换成600-850的评分：

defprobability_to_score(prob, base_score=600, pdo=50, base_odds=50):"""    将概率转换为评分卡分数    参数：    prob: 违约概率    base_score: 基准分（当好坏比为base_odds:1时的分数）    pdo: Points to Double the Odds（好坏比翻倍所需的分数）    base_odds: 基准好坏比    公式：Score = base_score + pdo * log2(Odds / base_odds)    """    odds = (1 - prob) / (prob + 1e-10)  # 避免除零    score = base_score + pdo * np.log2(odds / base_odds)return score# 为所有客户计算分数df['违约概率'] = model.predict_proba(X)[:, 1]df['评分'] = df['违约概率'].apply(lambda p: probability_to_score(p))# 分数分布分析plt.figure(figsize=(12, 5))plt.subplot(1, 2, 1)plt.hist(df['评分'], bins=30, color='skyblue', edgecolor='black', alpha=0.7)plt.xlabel('评分')plt.ylabel('人数')plt.title('评分分布')plt.grid(True, alpha=0.3)plt.subplot(1, 2, 2)# 按评分分组看违约率df['评分分组'] = pd.cut(df['评分'], bins=10)default_by_score = df.groupby('评分分组')['是否违约'].mean()plt.bar(range(len(default_by_score)), default_by_score.values,         color='orange', alpha=0.7)plt.xticks(range(len(default_by_score)),            [str(x) for x in default_by_score.index], rotation=45)plt.xlabel('评分分组')plt.ylabel('违约率')plt.title('不同评分的违约率')plt.grid(True, alpha=0.3)plt.tight_layout()plt.show()# 设定决策阈值print("\n基于评分的决策规则：")print("="*50)for threshold in [550, 600, 650, 700]:    approve_rate = (df['评分'] >= threshold).mean()    default_rate = df[df['评分'] >= threshold]['是否违约'].mean()print(f"如果批准评分≥{threshold}的客户：")print(f"  - 批准率：{approve_rate:.1%}")print(f"  - 批准客户的违约率：{default_rate:.1%}")print()

现在，你有了一个完整的评分系统：

• 低分客户（<550分）：高风险，建议拒绝
• 中分客户（550-650分）：中等风险，需要人工审核
• 高分客户（>650分）：低风险，自动批准

五、避坑指南：新手常犯的5个错误

在我带新人的过程中，发现大家常犯这些错误：

错误1：不看数据直接建模

正确做法：先花70%的时间做数据探索和理解

错误2：过度追求复杂模型

新手建议：从逻辑回归开始，它简单、可解释、效果不错

错误3：忽略业务常识

记住：月收入500万的客户和年龄120岁的客户，大概率是数据错误

错误4：不做特征工程

技巧：创造"负债收入比"这样的业务特征，往往比原始特征更有效

错误5：不在测试集上验证

黄金法则：永远用没见过的数据（测试集）评估模型

六、下一步学习路径

恭喜！你已经完成了第一个评分卡模型。接下来可以：

1. 本周内：夯实基础

• 用不同的随机种子重新运行代码，观察变化
• 尝试调整逻辑回归的参数（如C值）
• 添加更多特征，观察模型变化

2. 一个月内：进阶学习

• 学习WOE编码和IV值计算
• 掌握KS值、PSI等风控指标
• 了解特征分箱技术

3. 三个月内：实战项目

• 找真实数据（如Kaggle上的信贷数据集）
• 学习更复杂的模型（如LightGBM）
• 尝试部署简单API服务

欢迎添加：

公众号：消费金融风控联盟，ID：xiaojinfengkong

公众号：天天学风控，ID：xuefengkong

商务合作：13716986572

欢迎加入联盟粉丝通讯录：免费加入+免费发布信息，Vivian：13911850028回复通讯录

欢迎加入风控干货知识星球：详情可添加管理Vivian：13911850028回复知识星球

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Python评分卡模型入门

一、开篇故事：小白的困惑与突破

二、评分卡到底是什么？一句话讲明白

三、环境准备：5分钟搞定Python配置

3.1 最简单的安装方式：Anaconda

3.2 安装必要的库

四、实战开始：一步步构建你的第一个评分卡

4.1 数据准备：模拟一份最简单的信贷数据

4.2 数据探索：像侦探一样发现规律

4.3 特征工程：把原始数据变成模型能懂的语言

4.4 模型训练：三行代码构建评分卡模型

4.5 模型评估：你的模型靠谱吗？

4.6 模型解释：为什么这个客户被拒绝了？

4.7 评分转换：把概率变成业务熟悉的分数

五、避坑指南：新手常犯的5个错误

错误1：不看数据直接建模

错误2：过度追求复杂模型

错误3：忽略业务常识

错误4：不做特征工程

错误5：不在测试集上验证

六、下一步学习路径

1. 本周内：夯实基础

2. 一个月内：进阶学习

3. 三个月内：实战项目

最新文章

热门文章

随机文章

Python评分卡模型入门

一、开篇故事：小白的困惑与突破

二、评分卡到底是什么？一句话讲明白

三、环境准备：5分钟搞定Python配置

3.1 最简单的安装方式：Anaconda

3.2 安装必要的库

四、实战开始：一步步构建你的第一个评分卡

4.1 数据准备：模拟一份最简单的信贷数据

4.2 数据探索：像侦探一样发现规律

4.3 特征工程：把原始数据变成模型能懂的语言

4.4 模型训练：三行代码构建评分卡模型

4.5 模型评估：你的模型靠谱吗？

4.6 模型解释：为什么这个客户被拒绝了？

4.7 评分转换：把概率变成业务熟悉的分数

五、避坑指南：新手常犯的5个错误

错误1：不看数据直接建模

错误2：过度追求复杂模型

错误3：忽略业务常识

错误4：不做特征工程

错误5：不在测试集上验证

六、下一步学习路径

1. 本周内：夯实基础

2. 一个月内：进阶学习

3. 三个月内：实战项目

5.1 列表 —— Python 里的＂万能收纳盒＂

《Python 从入门到精通》089|math、statistics、collections 常用能力盘点

最新文章

热门文章

随机文章