当前位置：首页>python>python从基础到AI-机器学习-评估模型的效果

python从基础到AI-机器学习-评估模型的效果

2026-03-27 15:02:38

点击蓝字，立即关注

如果您对人工智能方面的分享感兴趣，欢迎您关注，我们的公众号：

已经完成的读书笔记，如您感兴趣，请移步，往期文章精选：

python机器学习读书笔记导航

《LangChain实战派》读书笔记-目录

《基于大模型的RAG应用开发与优化》读书笔记-导航

如果您对在家做菜也有兴趣，欢迎您关注我们的联合公众号：

写在前面

这是一个新系列的文章，从python基础到AI应用，从基础变成语言到算法使用。不讲原理，只讲用法。

每次留下一个小问题，并在下一次文章开头进行解答。

本系列文章内容，全部由AI来写。

指标	公式	含义	适用场景
准确率 (Accuracy)	TP+TN+FP+FNTP+TN	整体预测正确的比例	平衡数据
精确率 (Precision)	TP+FPTP	预测为正的样本中，真的是正的比例	误报代价高
召回率 (Recall)	TP+FNTP	实际为正的样本中，被找出来的比例	漏检代价高
F1分数	P+R2×P×R	精确率和召回率的调和平均	需要平衡P和R

代码示例：

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_scoreprint(f"准确率: {accuracy_score(y_true, y_pred):.4f}")print(f"精确率: {precision_score(y_true, y_pred):.4f}")print(f"召回率: {recall_score(y_true, y_pred):.4f}")print(f"F1分数: {f1_score(y_true, y_pred):.4f}")

完整实例：

from sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import (accuracy_score, precision_score, recall_score,                              f1_score, confusion_matrix, classification_report)# 加载乳腺癌数据集cancer = load_breast_cancer()X_train, X_test, y_train, y_test = train_test_split(    cancer.data, cancer.target, test_size=0.2, random_state=42)# 训练模型model = LogisticRegression(max_iter=1000, random_state=42)model.fit(X_train, y_train)y_pred = model.predict(X_test)# 计算各项指标print(f"准确率: {accuracy_score(y_test, y_pred):.4f}")print(f"精确率: {precision_score(y_test, y_pred):.4f}")print(f"召回率: {recall_score(y_test, y_pred):.4f}")print(f"F1分数: {f1_score(y_test, y_pred):.4f}")print("\n混淆矩阵:")print(confusion_matrix(y_test, y_pred))print("\n分类报告:")print(classification_report(y_test, y_pred, target_names=['恶性', '良性']))

ROC曲线与AUC

ROC曲线（Receiver Operating Characteristic）展示了**在不同分类阈值下，模型的真阳性率（TPR）和假阳性率（FPR）**的变化关系。

TPR（真阳性率）
= TP+FNTP = 召回率
FPR（假阳性率）
= FP+TNFP

AUC（Area Under the Curve）是ROC曲线下的面积，取值范围[0, 1]：

AUC = 0.5：随机猜测，和抛硬币一样
AUC > 0.7：有一定预测能力
AUC > 0.8：较好的模型
AUC > 0.9：优秀的模型

代码示例：

from sklearn.metrics import roc_curve, roc_auc_score, aucimport matplotlib.pyplot as plt# 获取预测概率（正类的概率）y_prob = model.predict_proba(X_test)[:, 1]# 计算ROCfpr, tpr, thresholds = roc_curve(y_test, y_prob)roc_auc = auc(fpr, tpr)# 绘制ROC曲线plt.figure(figsize=(8, 6))plt.plot(fpr, tpr, color='darkorange', lw=2,          label=f'ROC曲线 (AUC = {roc_auc:.4f})')plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--', label='随机猜测')plt.xlim([0.0, 1.0])plt.ylim([0.0, 1.05])plt.xlabel('假阳性率 (FPR)')plt.ylabel('真阳性率 (TPR)')plt.title('ROC曲线')plt.legend(loc="lower right")plt.grid(True, alpha=0.3)plt.show()print(f"AUC值: {roc_auc:.4f}")

多模型对比示例：

from sklearn.ensemble import RandomForestClassifierfrom sklearn.svm import SVCcancer = load_breast_cancer()X_train, X_test, y_train, y_test = train_test_split(    cancer.data, cancer.target, test_size=0.2, random_state=42)models = {'逻辑回归': LogisticRegression(max_iter=1000),'随机森林': RandomForestClassifier(n_estimators=100),'SVM': SVC(probability=True)}plt.figure(figsize=(10, 8))for name, model in models.items():    model.fit(X_train, y_train)    y_prob = model.predict_proba(X_test)[:, 1]    fpr, tpr, _ = roc_curve(y_test, y_prob)    roc_auc = auc(fpr, tpr)    plt.plot(fpr, tpr, lw=2, label=f'{name} (AUC = {roc_auc:.4f})')plt.plot([0, 1], [0, 1], 'k--', lw=2)plt.xlabel('假阳性率')plt.ylabel('真阳性率')plt.title('多模型ROC曲线对比')plt.legend(loc="lower right")plt.grid(True, alpha=0.3)plt.show()

Precision-Recall曲线与AP

当数据类别不平衡时，ROC曲线可能过于乐观，Precision-Recall（PR）曲线更可靠。

PR曲线
：以召回率为x轴，精确率为y轴
AP（Average Precision）
：PR曲线下的面积，越接近1越好

代码示例：

from sklearn.metrics import precision_recall_curve, average_precision_scorey_prob = model.predict_proba(X_test)[:, 1]precision, recall, _ = precision_recall_curve(y_test, y_prob)ap = average_precision_score(y_test, y_prob)plt.figure(figsize=(8, 6))plt.plot(recall, precision, lw=2, label=f'PR曲线 (AP = {ap:.4f})')plt.xlabel('召回率')plt.ylabel('精确率')plt.title('Precision-Recall曲线')plt.legend()plt.grid(True, alpha=0.3)plt.show()print(f"平均精确度 (AP): {ap:.4f}")

二、回归模型评估指标

回归任务预测的是连续值，评估指标和分类任务完全不同。本节介绍回归任务中最常用的几种评估指标。

误差类指标：MSE、RMSE、MAE

这三个指标都是基于预测误差来衡量模型性能，值越小越好。

指标	全称	公式	特点
MSE	Mean Squared Error	n1∑i=1n(yi−y^i)2 对大误差惩罚重	对异常值敏感
RMSE	Root Mean Squared Error	MSE	和目标值同量纲，易解释
MAE	Mean Absolute Error	n1∑i=1n∣yi−y^i∣

代码示例：

from sklearn.metrics import mean_squared_error, mean_absolute_errorimport numpy as npy_true = [3, -0.5, 2, 7]y_pred = [2.5, 0.0, 2, 8]mse = mean_squared_error(y_true, y_pred)rmse = np.sqrt(mse)mae = mean_absolute_error(y_true, y_pred)print(f"MSE: {mse:.4f}")print(f"RMSE: {rmse:.4f}")print(f"MAE: {mae:.4f}")

完整实例：波士顿房价预测

from sklearn.datasets import fetch_california_housingfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_error, mean_absolute_error, r2_scoreimport numpy as np# 加载加州房价数据集housing = fetch_california_housing()X_train, X_test, y_train, y_test = train_test_split(    housing.data, housing.target, test_size=0.2, random_state=42)# 训练线性回归模型model = LinearRegression()model.fit(X_train, y_train)y_pred = model.predict(X_test)# 计算各项指标mse = mean_squared_error(y_test, y_pred)rmse = np.sqrt(mse)mae = mean_absolute_error(y_test, y_pred)print(f"MSE: {mse:.4f}")print(f"RMSE: {rmse:.4f}")print(f"MAE: {mae:.4f}")

R²决定系数

R²（R-squared）衡量模型解释数据方差的能力，越接近1越好。

公式：

R2=1−∑(yi−yˉ)2∑(yi−y^i)2

R2=1
：完美预测
R2=0
：和预测均值一样好
R2<0
：模型比预测均值还差

代码示例：

from sklearn.metrics import r2_scorer2 = r2_score(y_test, y_pred)print(f"R²: {r2:.4f}")# 或者直接用模型的score方法print(f"R² (通过score): {model.score(X_test, y_test):.4f}")

MSE vs MAE如何选择？

如果异常值需要被惩罚，或者需要可导性，选择MSE
如果异常值是噪声，希望更鲁棒，选择MAE

三、模型验证方法

选择好指标后，我们还需要科学的验证方法来评估模型的泛化能力。单次划分训练集/测试集可能结果波动很大，交叉验证能给出更稳定可靠的评估。

留出法（Hold-out）

最简单也最常用，直接将数据划分为训练集和测试集。

from sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.datasets import load_irisiris = load_iris()X_train, X_test, y_train, y_test = train_test_split(    iris.data, iris.target, test_size=0.2, random_state=42, stratify=iris.target)model = LogisticRegression()model.fit(X_train, y_train)print(f"测试集准确率: {model.score(X_test, y_test):.4f}")

特点：

✅ 计算快，简单直接
❌ 结果依赖于一次划分，不稳定
❌ 数据量小时，验证集不够大，评估不可靠

K折交叉验证

K折交叉验证通过多次划分取平均，结果更稳定可靠。

流程：

将所有数据随机分成K份（折）
每次选K-1份训练，剩下1份验证
重复K次，得到K个验证得分
计算平均得分和标准差

代码示例：

from sklearn.model_selection import KFold, cross_val_scorefrom sklearn.ensemble import RandomForestClassifierfrom sklearn.datasets import load_irisiris = load_iris()model = RandomForestClassifier(n_estimators=100, random_state=42)# 5折交叉验证kf = KFold(n_splits=5, shuffle=True, random_state=42)scores = cross_val_score(model, iris.data, iris.target, cv=kf, scoring='accuracy')print(f"各折准确率: {[f'{s:.4f}'for s in scores]}")print(f"平均准确率: {scores.mean():.4f} (±{scores.std()*2:.4f})")

使用cross_val_score简化版：

from sklearn.model_selection import cross_val_scorescores = cross_val_score(model, iris.data, iris.target, cv=5, scoring='accuracy')print(f"5折平均准确率: {scores.mean():.4f}")

分层K折、留一法与分组K折

不同场景需要不同的交叉验证策略：

1. 分层K折（StratifiedKFold）

保证每一折中各类别的比例与原数据一致
分类任务推荐使用，尤其是数据不平衡时

from sklearn.model_selection import StratifiedKFoldskf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)scores = cross_val_score(model, iris.data, iris.target, cv=skf)print(f"分层5折平均准确率: {scores.mean():.4f}")

2. 留一法（Leave-One-Out）

K等于样本数，每次只留一个样本当验证集
结果无偏，但计算量大，只适合小数据集

from sklearn.model_selection import LeaveOneOutloo = LeaveOneOut()scores = cross_val_score(model, iris.data, iris.target, cv=loo)print(f"留一法平均准确率: {scores.mean():.4f}")

3. 分组K折（GroupKFold）

同一组的样本不会同时出现在训练和验证集中
用于存在分组结构的数据（比如同一病人多个样本）

from sklearn.model_selection import GroupKFold# 示例：假设有分组信息groups = [0, 0, 1, 1, 2, 2, 3, 3, 4, 4]  # 分组标签gkf = GroupKFold(n_splits=5)for train_idx, test_idx in gkf.split(X, y, groups=groups):# 训练和验证pass

K值选择建议：

通常用 5折或 10折
数据量小 → K大一些（如10折）
数据量大 → K小一些（如5折）
K越大，计算时间越长，但方差越小

四、聚类（无监督学习）评估方法

无监督学习没有真实标签，评估更加困难。我们分两种情况讨论：有真实标签和无真实标签。

外部评估：有真实标签时

如果我们知道真实的聚类结果，可以用以下指标评估：

1. Adjusted Rand Index（ARI，调整兰德指数）

衡量两个聚类结果的相似度
范围 [-1, 1]，越接近1越好
调整了随机聚类的影响，ARI=0表示和随机聚类一样

from sklearn.metrics import adjusted_rand_scorey_true = [0, 0, 1, 1, 2, 2]y_pred = [0, 0, 0, 1, 2, 2]ari = adjusted_rand_score(y_true, y_pred)print(f"ARI: {ari:.4f}")

2. Normalized Mutual Information（NMI，归一化互信息）

基于信息论，衡量两个聚类结果的信息一致性
范围 [0, 1]，越接近1越好

from sklearn.metrics import normalized_mutual_info_scorenmi = normalized_mutual_info_score(y_true, y_pred)print(f"NMI: {nmi:.4f}")

完整示例：

from sklearn.cluster import KMeansfrom sklearn.metrics import adjusted_rand_score, normalized_mutual_info_scorefrom sklearn.datasets import load_irisiris = load_iris()X = iris.datay_true = iris.target# K-means聚类kmeans = KMeans(n_clusters=3, random_state=42)y_pred = kmeans.fit_predict(X)print(f"ARI: {adjusted_rand_score(y_true, y_pred):.4f}")print(f"NMI: {normalized_mutual_info_score(y_true, y_pred):.4f}")

内部评估：无真实标签时

大多数情况下聚类没有真实标签，需要用内部指标评估：

1. Silhouette Coefficient（轮廓系数）

对每个样本计算：s=max(a,b)b−a

a
：样本到同簇其他样本的平均距离（簇内紧密度）
b
：样本到最近其他簇的平均距离（簇间分离度）

范围 [-1, 1]，越接近1越好
接近1：聚类合理；接近0：聚类重叠；接近-1：聚类错误

from sklearn.metrics import silhouette_scorefrom sklearn.cluster import KMeansfrom sklearn.datasets import load_irisiris = load_iris()X = iris.datakmeans = KMeans(n_clusters=3, random_state=42)y_pred = kmeans.fit_predict(X)silhouette = silhouette_score(X, y_pred)print(f"轮廓系数: {silhouette:.4f}")

2. Davies-Bouldin Index（DB指数）

衡量簇间的平均相似性
值越小越好
，0是最佳得分

from sklearn.metrics import davies_bouldin_scoredb = davies_bouldin_score(X, y_pred)print(f"DB指数: {db:.4f}")

3. Calinski-Harabasz Index（CH指数）

簇间散度 / 簇内散度
值越大越好

from sklearn.metrics import calinski_harabasz_scorech = calinski_harabasz_score(X, y_pred)print(f"CH指数: {ch:.4f}")

选择K值的小技巧：尝试不同的K（比如2到10），计算轮廓系数，选择轮廓系数最大的K。

import matplotlib.pyplot as pltk_range = range(2, 11)sil_scores = []for k in k_range:    kmeans = KMeans(n_clusters=k, random_state=42)    y_pred = kmeans.fit_predict(X)    sil_scores.append(silhouette_score(X, y_pred))plt.figure(figsize=(8, 4))plt.plot(k_range, sil_scores, 'o-')plt.xlabel('聚类数K')plt.ylabel('轮廓系数')plt.title('轮廓系数选择最佳K')plt.grid(True, alpha=0.3)plt.show()best_k = k_range[sil_scores.index(max(sil_scores))]print(f"最佳K值: {best_k}")

五、如何选择合适的评估方法

面对这么多指标和方法，初学者常常困惑：我到底该用哪一个？这一节给你清晰的选择指南。

分类任务指标选择

场景	推荐指标	原因
类别平衡	准确率 + 混淆矩阵	简单直接，易于理解
类别不平衡	AUC / F1 / PR曲线	准确率在不平衡数据上会骗人
漏检代价高（如癌症筛查）	召回率优先	宁愿错杀一千，不能放过一个
误报代价高（如垃圾邮件）	精确率优先	不要把正常邮件错标为垃圾
需要平衡P&R	F1分数	调和平均，同时考虑两者
模型对比	ROC曲线 + AUC	直观展示不同模型优劣

一句话原则： 根据业务错判代价选择，哪个错更不能接受，就优先优化对应的指标。

回归任务指标选择

场景	推荐指标	原因
有异常值，需要鲁棒性	MAE	对大误差惩罚小，更稳定
大误差需要惩罚	MSE/RMSE	平方放大了大误差的影响
需要直观解释	RMSE / R²	RMSE和目标同单位，R²表示解释程度
模型对比	R² + RMSE	R²看整体拟合，RMSE看误差大小

聚类任务指标选择

场景	推荐指标
有真实标签	ARI 或 NMI
无真实标签	轮廓系数 + DB指数 + CH指数（三个一起看）
选择聚类数K	轮廓系数法（选最大）

验证方法选择

场景	推荐方法
数据量大	留出法（Hold-out）
数据量中等	5折或10折交叉验证
数据量很小	留一法交叉验证
分类任务	分层K折
数据有分组结构	分组K折

动手实践：完整模型评估流程

现在让我们通过一个完整的案例，把所有知识点串联起来。我们将使用乳腺癌数据集，从数据划分到模型训练，再到多维度评估，走一遍完整流程。

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFoldfrom sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.svm import SVCfrom sklearn.metrics import (    accuracy_score, precision_score, recall_score, f1_score,    confusion_matrix, classification_report, roc_curve, auc,    precision_recall_curve, average_precision_score)# 1. 加载数据并划分data = load_breast_cancer()X = data.datay = data.targetprint(f"数据集形状: {X.shape}")print(f"类别分布: {np.bincount(y)}")# 分层划分，保持类别比例X_train, X_test, y_train, y_test = train_test_split(    X, y, test_size=0.2, random_state=42, stratify=y)# 特征标准化scaler = StandardScaler()X_train_scaled = scaler.fit_transform(X_train)X_test_scaled = scaler.transform(X_test)# 2. 训练多个模型对比models = {'逻辑回归': LogisticRegression(max_iter=1000, random_state=42),'随机森林': RandomForestClassifier(n_estimators=100, random_state=42),'SVM': SVC(probability=True, random_state=42)}# 3. 5折交叉验证评估print("\n=== 5折分层交叉验证结果 ===")skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)cv_results = {}for name, model in models.items():    scores = cross_val_score(model, X_train_scaled, y_train, cv=skf, scoring='accuracy')    cv_results[name] = scoresprint(f"{name}: 平均准确率 = {scores.mean():.4f} (±{scores.std()*2:.4f})")# 4. 在测试集上进行详细评估print("\n=== 测试集详细评估 ===")plt.figure(figsize=(12, 5))for i, (name, model) inenumerate(models.items()):# 训练模型    model.fit(X_train_scaled, y_train)    y_pred = model.predict(X_test_scaled)    y_prob = model.predict_proba(X_test_scaled)[:, 1]# 计算各项指标    acc = accuracy_score(y_test, y_pred)    prec = precision_score(y_test, y_pred)    rec = recall_score(y_test, y_pred)    f1 = f1_score(y_test, y_pred)print(f"\n【{name}】")print(f"准确率: {acc:.4f}")print(f"精确率: {prec:.4f}")print(f"召回率: {rec:.4f}")print(f"F1分数: {f1:.4f}")print("\n混淆矩阵:")print(confusion_matrix(y_test, y_pred))print("\n分类报告:")print(classification_report(y_test, y_pred, target_names=['恶性', '良性']))# 绘制ROC曲线    fpr, tpr, _ = roc_curve(y_test, y_prob)    roc_auc = auc(fpr, tpr)    plt.subplot(1, 2, 1)    plt.plot(fpr, tpr, lw=2, label=f'{name} (AUC = {roc_auc:.4f})')# 绘制PR曲线    precision, recall, _ = precision_recall_curve(y_test, y_prob)    ap = average_precision_score(y_test, y_prob)    plt.subplot(1, 2, 2)    plt.plot(recall, precision, lw=2, label=f'{name} (AP = {ap:.4f})')# 完成图表绘制plt.subplot(1, 2, 1)plt.plot([0, 1], [0, 1], 'k--', lw=2)plt.xlabel('假阳性率')plt.ylabel('真阳性率')plt.title('ROC曲线对比')plt.legend(loc='lower right')plt.grid(True, alpha=0.3)plt.subplot(1, 2, 2)plt.xlabel('召回率')plt.ylabel('精确率')plt.title('Precision-Recall曲线对比')plt.legend(loc='lower left')plt.grid(True, alpha=0.3)plt.tight_layout()plt.show()

运行结果解读：

你会看到三个模型在各项指标上的对比
ROC和PR曲线直观展示了模型性能差异
交叉验证给出更稳定的性能估计，避免单次划分的偶然性

这个完整流程展示了如何多维度、科学地评估模型，而不只是看一个准确率。

本期作业

光看不练假把式。现在请运用本文所学，完成以下实践任务：

核心任务（分类评估）

使用葡萄酒数据集 load_wine() 完成：

将数据划分为训练集和测试集（80%训练，20%测试），使用分层划分
训练逻辑回归模型
计算并输出：准确率、精确率、召回率、F1分数
输出混淆矩阵和分类报告
绘制ROC曲线并计算AUC

进阶任务（回归评估）

使用加州房价数据集 fetch_california_housing() 完成：

划分训练集和测试集
训练线性回归模型
计算并输出：MSE、RMSE、MAE、R²
思考：R²的值说明了什么？这个模型的拟合效果如何？

挑战任务（聚类评估）

使用鸢尾花数据集 load_iris() 完成：

使用KMeans聚类，尝试K=2, 3, 4, 5
对每个K，计算：轮廓系数、DB指数、CH指数
画出轮廓系数随K变化的曲线
根据轮廓系数，选择最佳K值，并与真实类别数比较
使用ARI和NMI评估K=3时的聚类结果

思考题

在癌症筛查中，为什么召回率比精确率更重要？如果漏诊了一个癌症患者，代价是什么？
什么是类别不平衡？为什么准确率在类别不平衡时会骗人？举一个实际例子说明。
为什么需要交叉验证？单次留出法有什么问题？
无监督聚类没有真实标签时，如何评估聚类质量？

总结

至此，我们已经系统遍历了三大类机器学习任务的完整评估体系：

从分类任务的混淆矩阵、准确率、精确率、召回率、F1，到ROC曲线与AUC、PR曲线与AP；从回归任务的MSE、RMSE、MAE到R²决定系数；从验证方法的留出法、K折交叉验证、分层K折到留一法和分组K折；从聚类评估的外部指标ARI、NMI到内部指标轮廓系数、DB指数、CH指数；最后还给了不同场景下的选择指南，告诉你该如何选择最合适的评估方法。

记住：正确评估比盲目调参更重要。选择了错误的评估指标，你可能以为模型很好，实际部署到生产环境却一塌糊涂。掌握了本文介绍的这套方法，你就能科学、客观、全面地评估你的模型，为后续改进打下坚实基础。

最后提醒：机器学习是实践的艺术，请务必运行文中的代码，完成本期作业，这比读十遍都更有收获。

附录：核心知识点速查表

类别	方法/指标	关键说明	适用场景
分类 - 基础	准确率 (Accuracy)	(TP+TN)/总数，预测正确比例	类别平衡
	精确率 (Precision)	TP/(TP+FP)，预测为正中实际为正	误报代价高
	召回率 (Recall)	TP/(TP+FN)，实际为正中被找出	漏检代价高
	F1分数	2×P×R/(P+R)，P和R的调和平均	需要平衡P&R
	混淆矩阵	展示TP/FN/FP/TN	分析各类别错分情况
分类 - 进阶	ROC曲线	不同阈值下的FPR vs TPR	模型对比
	AUC	ROC曲线下面积，0.5~1.0，越大越好	二分类模型评估
	PR曲线	Precision vs Recall	类别不平衡
	AP	PR曲线下面积，越大越好	类别不平衡
回归	MSE	均方误差，对大误差惩罚重	一般回归任务
	RMSE	根号MSE，与目标同量纲	易解释
	MAE	平均绝对误差，对异常值鲁棒	存在异常值
	R²	决定系数，越接近1越好	评估拟合优度
验证方法	Hold-out留出法	单次划分训练/测试	大数据集
	K折交叉验证	分成K份，轮流验证取平均	数据量中等
	分层K折	保持类别比例	分类任务，尤其不平衡
	留一法	每个样本验证一次	小数据集
	分组K折	同组不混在训练测试	数据有分组结构
聚类 - 外部	ARI（调整兰德指数）	[-1, 1]，越大越好	有真实标签
	NMI（归一化互信息）	[0, 1]，越大越好	有真实标签
聚类 - 内部	轮廓系数	[-1, 1]，越大越好	无真实标签，选K值
	DB指数	值越小越好	无真实标签
	CH指数	值越大越好	无真实标签
sklearn代码	分类指标	`from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score`	-
	曲线指标	`from sklearn.metrics import roc_curve, roc_auc_score, precision_recall_curve, average_precision_score`	-
	回归指标	`from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score`	-
	聚类指标	`from sklearn.metrics import adjusted_rand_score, normalized_mutual_info_score, silhouette_score, davies_bouldin_score, calinski_harabasz_score`	-
	交叉验证	`from sklearn.model_selection import cross_val_score, KFold, StratifiedKFold, LeaveOneOut, GroupKFold`	-

请在微信客户端打开

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

	预测为正	预测为负
实际为正	TP（真阳性）	FN（假阴性）
实际为负	FP（假阳性）	TN（真阴性）

目录

引言

一、分类模型评估指标

混淆矩阵：理解预测错误

基础指标：准确率、精确率、召回率、F1

ROC曲线与AUC

Precision-Recall曲线与AP

二、回归模型评估指标

误差类指标：MSE、RMSE、MAE

R²决定系数

三、模型验证方法

留出法（Hold-out）

K折交叉验证

分层K折、留一法与分组K折

四、聚类（无监督学习）评估方法

外部评估：有真实标签时

内部评估：无真实标签时

五、如何选择合适的评估方法

分类任务指标选择

回归任务指标选择

聚类任务指标选择

验证方法选择

动手实践：完整模型评估流程

本期作业

核心任务（分类评估）

进阶任务（回归评估）

挑战任务（聚类评估）

思考题

总结

附录：核心知识点速查表

python从基础到AI-机器学习-评估模型的效果

最新文章

热门文章

随机文章

python从基础到AI-机器学习-评估模型的效果

目录

引言

一、分类模型评估指标

混淆矩阵：理解预测错误

基础指标：准确率、精确率、召回率、F1

ROC曲线与AUC

Precision-Recall曲线与AP

二、回归模型评估指标

误差类指标：MSE、RMSE、MAE

R²决定系数

三、模型验证方法

留出法（Hold-out）

K折交叉验证

分层K折、留一法与分组K折

四、聚类（无监督学习）评估方法

外部评估：有真实标签时

内部评估：无真实标签时

五、如何选择合适的评估方法

分类任务指标选择

回归任务指标选择

聚类任务指标选择

验证方法选择

动手实践：完整模型评估流程

本期作业

核心任务（分类评估）

进阶任务（回归评估）

挑战任务（聚类评估）

思考题

总结

附录：核心知识点速查表

Python参数传递——位置参数与关键字参数

98G Linux+PHP全套学习资源|零基础到运维大神,夸克网盘一键领

最新文章

热门文章

随机文章