from sklearn.datasets import fetch_california_housingfrom sklearn.preprocessing import StandardScalerfrom sklearn.feature_selection import SelectKBest, f_regressionfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import r2_scorefrom sklearn.model_selection import train_test_splitimport numpy as npimport matplotlib.pyplot as pltimport pandas as pd# 1. 加载数据并检查缺失值housing = fetch_california_housing()X = pd.DataFrame(housing.data, columns=housing.feature_names)y = housing.targetprint(f"缺失值检查:\n{X.isnull().sum()}")# 加州房价数据集本身没有缺失值，这一步检查完直接继续# 2. 对收入特征MedInc做对数变换plt.figure(figsize=(10, 4))plt.subplot(1, 2, 1)plt.hist(X['MedInc'], bins=30)plt.title('原始分布')X['MedInc_log'] = np.log1p(X['MedInc'])plt.subplot(1, 2, 2)plt.hist(X['MedInc_log'], bins=30)plt.title('对数变换后')plt.show()# 替换原特征X = X.drop(['MedInc'], axis=1)# 3. 特征标准化scaler = StandardScaler()X_scaled = scaler.fit_transform(X)# 4. F检验选择Top 5特征selector = SelectKBest(f_regression, k=5)X_selected = selector.fit_transform(X_scaled, y)selected_names = X.columns[selector.get_support()]print(f"\n选择的Top 5特征: {list(selected_names)}")print(f"p-values: {selector.pvalues_.round(4)}")# 5. 划分训练测试，训练模型，计算R²X_train, X_test, y_train, y_test = train_test_split(    X_selected, y, test_size=0.2, random_state=42)model = LinearRegression()model.fit(X_train, y_train)y_pred = model.predict(X_test)r2 = r2_score(y_test, y_pred)print(f"\nR² = {r2:.4f}")

可以看到，对数变换让收入分布更对称，F检验选出了最重要的5个特征，最终线性模型也能得到不错的R²。

进阶任务：泰坦尼克完整特征工程

import pandas as pdimport numpy as npimport seaborn as snsfrom sklearn.model_selection import train_test_splitfrom sklearn.impute import SimpleImputerfrom sklearn.preprocessing import OneHotEncoder, StandardScaler, PolynomialFeaturesfrom sklearn.feature_selection import SelectFromModelfrom sklearn.compose import ColumnTransformerfrom sklearn.pipeline import Pipelinefrom sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import accuracy_score# 加载数据data = sns.load_dataset('titanic')X = data.drop(['survived'], axis=1)y = data['survived']# 1. 处理缺失值# Age用中位数填充，Embarked用众数填充numeric_features = ['age', 'fare']categorical_features = ['sex', 'pclass', 'embarked']# 2. 添加Fare和Pclass的多项式交互特征# 我们先提取这两列做多项式，然后合并poly = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)# 3. 预处理管道numeric_transformer = Pipeline(steps=[    ('imputer', SimpleImputer(strategy='median')),    ('scaler', StandardScaler())])categorical_transformer = Pipeline(steps=[    ('imputer', SimpleImputer(strategy='most_frequent')),    ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False))])preprocessor = ColumnTransformer(    transformers=[        ('num', numeric_transformer, numeric_features),        ('cat', categorical_transformer, categorical_features)    ])# 4. 完整管道：预处理 -> 特征选择 -> 模型full_pipeline = Pipeline(steps=[    ('preprocessing', preprocessor),    ('feature_selection', SelectFromModel(        RandomForestClassifier(n_estimators=100, random_state=42),        threshold='mean')),    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))])# 5. 训练评估X_train, X_test, y_train, y_test = train_test_split(    X, y, test_size=0.2, random_state=42, stratify=y)full_pipeline.fit(X_train, y_train)y_pred = full_pipeline.predict(X_test)acc = accuracy_score(y_test, y_pred)print(f"测试集准确率: {acc:.4f}")# 查看选择了多少特征X_preprocessed = preprocessor.fit_transform(X_train)print(f"\n预处理后总特征数: {X_preprocessed.shape[1]}")selector = full_pipeline.named_steps['feature_selection']print(f"选择后特征数: {selector.get_support().sum()}")

运行这段代码，你应该能得到约81-83%的准确率，这在泰坦尼克数据集上已经很不错了。

一、什么是超参数

超参数vs模型参数

先搞清楚一个基本区别：

类型	定义	例子	谁来确定
模型参数	数据驱动，算法从数据中学出来	线性回归的权重w，逻辑回归的系数	算法自动学习
超参数	算法开始训练之前，需要我们手动设置	正则化强度C，树的数量n_estimators，树的深度max_depth	人工设置/调优

常见超参数举例

模型	常见超参数
线性回归/Ridge/Lasso	alpha（正则化强度）
逻辑回归	C（正则化强度），penalty（L1/L2/ElasticNet）
KNN	n_neighbors（K值）
决策树	max_depth（树深度），min_samples_split
随机森林	n_estimators（树数量），max_depth
XGBoost/LightGBM	learning_rate（学习率），n_estimators，max_depth
SVM	C（正则化），gamma（核参数）

为什么需要调优

同一个模型，不同的超参数，性能可能差很多。比如：

正则化太强 → 欠拟合 → 性能差
正则化太弱 → 过拟合 → 性能也差
树太深 → 过拟合
树太浅 → 欠拟合

所以，我们需要找到一组超参数，让模型在验证集上性能最好，这就是超参数调优。

二、网格搜索

原理

网格搜索就是暴力搜索：你给定每个超参数的候选值列表，算法会穷举所有可能的组合，一个个试过去，找到验证集性能最好的那一组。

比如你要调两个超参数：

C: [0.01, 0.1, 1, 10, 100]
gamma: [0.001, 0.01, 0.1, 1]

网格搜索会尝试所有 5 × 4 = 20 种组合，选最好的出来。

代码示例

from sklearn import datasetsfrom sklearn.svm import SVCfrom sklearn.model_selection import GridSearchCV, train_test_splitfrom sklearn.metrics import accuracy_score# 加载数据iris = datasets.load_iris()X_train, X_test, y_train, y_test = train_test_split(    iris.data, iris.target, test_size=0.2, random_state=42, stratify=iris.target)# 定义参数网格param_grid = [    {'C': [0.01, 0.1, 1, 10, 100], 'gamma': [0.001, 0.01, 0.1, 1], 'kernel': ['rbf']}]# 创建网格搜索grid = GridSearchCV(SVC(), param_grid, cv=5, scoring='accuracy')grid.fit(X_train, y_train)print(f"最佳参数: {grid.best_params_}")print(f"交叉验证最佳准确率: {grid.best_score_:.4f}")# 在测试集评估y_pred = grid.predict(X_test)print(f"测试集准确率: {accuracy_score(y_test, y_pred):.4f}")# 查看所有结果results = pd.DataFrame(grid.cv_results_)[['params', 'mean_test_score', 'std_test_score']]print(results)

优缺点

优点	缺点
简单暴力，不容易错过最优解	组合爆炸，超参数多了太慢
实现简单，sklearn直接用	对计算资源浪费很大
	超参数维度超过3基本没法用

适用场景： 超参数少（1-3个），每个超参数候选值不多 → 网格搜索最合适。

三、随机搜索

原理

随机搜索不搜网格了，直接在参数空间随机采样，采N个，试N个，选最好的。

为什么随机搜索比网格搜索好？

很多超参数其实不怎么影响结果，少数几个影响大
随机搜索能搜到更多不同的组合，更容易找到好的
计算量你可以控制，要快就少采点，要准就多采点

代码示例

from sklearn import datasetsfrom sklearn.svm import SVCfrom sklearn.model_selection import RandomizedSearchCV, train_test_splitfrom sklearn.metrics import accuracy_scorefrom scipy.stats import loguniformimport pandas as pd# 加载数据iris = datasets.load_iris()X_train, X_test, y_train, y_test = train_test_split(    iris.data, iris.target, test_size=0.2, random_state=42, stratify=iris.target)# 定义参数分布：C和gamma在对数空间均匀分布param_dist = {'C': loguniform(1e-2, 1e2),  # 0.01 ~ 100 对数均匀分布'gamma': loguniform(1e-3, 1e0),  # 0.001 ~ 1 对数均匀分布'kernel': ['rbf']}# 创建随机搜索random_search = RandomizedSearchCV(    SVC(), param_distributions, n_iter=20,     cv=5, random_state=42, scoring='accuracy')random_search.fit(X_train, y_train)print(f"最佳参数: {random_search.best_params_}")print(f"交叉验证最佳准确率: {random_search.best_score_:.4f}")y_pred = random_search.predict(X_test)print(f"测试集准确率: {accuracy_score(y_test, y_pred):.4f}")# 查看所有结果results = pd.DataFrame(random_search.cv_results_)[['params', 'mean_test_score']]print(results.sort_values('mean_test_score', ascending=False).head())

网格搜索vs随机搜索

维度	网格搜索	随机搜索
计算量	指数增长	可控，想试多少试多少
覆盖	均匀覆盖网格，但很多没用	随机覆盖，更容易找到有用区域
速度	超参数多了很慢	同样计算量下，通常更快找到更好结果

经验法则：

超参数 ≤ 2 个，每个只有几个候选值 → 网格搜索
超参数 ≥ 3 个，或者连续值 → 随机搜索
随机搜索比网格搜索更常用，效果更好，还更快

四、贝叶斯优化

原理简介

网格搜索和随机搜索都是瞎试，试过就完了，不会从之前的结果中学到什么。

贝叶斯优化不一样，它会建立一个概率模型来拟合超参数和验证集性能之间的关系，用这个概率模型来预测哪些超参数可能更好，一步步逼近最优解。

简单说：它会"学习"，越试越聪明，能更快找到好的超参数，比瞎试效率高很多。

用hyperopt实战

我们用 hyperopt 这个库来演示：

from hyperopt import hp, fmin, tpe, STATUS_OK, Trialsfrom sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import cross_val_scorefrom sklearn.svm import SVCimport numpy as np# 加载数据data = load_breast_cancer()X, y = data.data, data.target# 1. 定义参数搜索空间space = {'C': hp.loguniform('C', np.log(1e-2), np.log(1e2)),  # 0.01 ~ 100 对数均匀'gamma': hp.loguniform('gamma', np.log(1e-3), np.log(1e0)),  # 0.001 ~ 1}# 2. 定义目标函数（要最小化）defobjective(params):    svm = SVC(**params, random_state=42)    score = cross_val_score(svm, X, y, cv=5, scoring='accuracy').mean()# hyperopt要最小化，所以我们返回负准确率return {'loss': -score, 'status': STATUS_OK}# 3. 运行贝叶斯优化trials = Trials()best = fmin(    fn=objective,    space=space,    algo=tpe.suggest,    max_evals=20,    trials=trials,    rstate=np.random.RandomState(42))print(f"最佳参数: {best}")# 查看结果for trial in trials.trials:print(f"loss: {-trial['result']['loss']:.4f}, params: {trial['misc']['vals']}")

贝叶斯优化通常用更少的尝试就能找到比随机搜索更好的结果。

五、贝叶斯优化vs随机搜索vs网格搜索

对比表格

方法	原理	优点	缺点	适合场景
网格搜索	穷举所有组合	简单，可控	组合爆炸，慢	超参数少（≤2），候选少
随机搜索	随机采样	快，可控，效果比网格好	纯随机，不学习	超参数中等，大多数情况
贝叶斯优化	概率模型代理，序贯优化	样本效率高，更少尝试找到更好	计算开销大，更复杂	超参数重要，计算资源有限，追求最好结果

怎么选择

我的建议：

超参数少，想快速搞定
→ 网格搜索
大多数情况
→ 随机搜索，20-50次尝试，很快就能得到不错的结果
追求最好效果，计算资源够
→ 贝叶斯优化（hyperopt/optuna）
超参数特别多 → 贝叶斯优化效率最高

动手实践：逻辑回归超参数调优

现在我们用乳腺癌数据集，完整演示三种调优方法对比：

import numpy as npimport pandas as pdfrom sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCVfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_scorefrom scipy.stats import loguniform# 加载数据data = load_breast_cancer()X_train, X_test, y_train, y_test = train_test_split(    data.data, data.target, test_size=0.2, random_state=42, stratify=data.target)# 1. 网格搜索print("=== 网格搜索 ===")param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100],'penalty': ['l2']}grid = GridSearchCV(    LogisticRegression(max_iter=1000, random_state=42),    param_grid, cv=5, scoring='accuracy')grid.fit(X_train, y_train)print(f"最佳参数: {grid.best_params_}")print(f"交叉验证准确率: {grid.best_score_:.4f}")y_pred = grid.predict(X_test)print(f"测试集准确率: {accuracy_score(y_test, y_pred):.4f}")print(f"尝试了 {len(grid.cv_results_['params'])} 种组合\n")# 2. 随机搜索print("=== 随机搜索 ===")param_dist = {'C': loguniform(1e-3, 1e2),'penalty': ['l2']}random_search = RandomizedSearchCV(    LogisticRegression(max_iter=1000, random_state=42),    param_distributions=param_dist, n_iter=20,    cv=5, random_state=42, scoring='accuracy')random_search.fit(X_train, y_train)print(f"最佳参数: {random_search.best_params_}")print(f"交叉验证准确率: {random_search.best_score_:.4f}")y_pred = random_search.predict(X_test)print(f"测试集准确率: {accuracy_score(y_test, y_pred):.4f}")print(f"尝试了 {len(random_search.cv_results_['params'])} 种组合\n")# 对比结果results = pd.DataFrame({'方法': ['网格搜索', '随机搜索'],'尝试组合数': [len(grid.cv_results_['params']), len(random_search.cv_results_['params'])],'最佳交叉验证准确率': [f"{grid.best_score_:.4f}", f"{random_search.best_score_:.4f}"],'测试集准确率': [f"{accuracy_score(y_test, grid.predict(X_test)):.4f}", f"{accuracy_score(y_test, random_search.predict(X_test)):.4f}"]})print("=== 对比总结 ===")print(results.to_string(index=False))

运行这段代码，你会发现随机搜索用更少的尝试就能得到和网格搜索相当甚至更好的结果。

本期作业

现在轮到你练习了，请完成以下任务：

核心任务

使用SVM在鸢尾花数据集上做超参数调优：

定义参数空间：C ∈ [0.01, 100]，gamma ∈ [0.001, 1]
分别用网格搜索、随机搜索做调优
对比两种方法的尝试次数、最佳交叉验证准确率、测试集准确率
说说你的结论

进阶任务

使用hyperopt做贝叶斯优化，同样调优C和gamma
对比三种方法的结果
绘制迭代次数 vs 最佳准确率曲线，看看哪种方法收敛更快

思考题

什么是超参数？超参数和模型参数有什么区别？
为什么网格搜索在超参数多的时候会很慢？
为什么随机搜索通常比网格搜索效果更好？
贝叶斯优化和随机搜索最大的区别是什么？什么时候用贝叶斯优化？

总结

超参数调优是机器学习流水线中必不可少的一步，同样的模型，调好超参数和瞎蒙一个，性能可能差很多。

我们介绍了三种最常用的调优方法：

网格搜索
：超参数少的时候用，简单暴力
随机搜索
：大多数情况下用，更快效果更好
贝叶斯优化
：追求最好效果的时候用，样本效率更高

记住我们的选择口诀：

超参数少 → 网格搜索
一般情况 → 随机搜索
追求最好 → 贝叶斯优化

掌握了超参数调优，你就能让你的模型发挥出最佳性能。> 提醒：请运行文中代码，完成本期作业，实践出真知。

附录：核心知识点速查表

方法	说明	适用场景	代码导入
GridSearchCV	网格搜索，穷举所有组合	超参数≤2，候选值少	`from sklearn.model_selection import GridSearchCV`
RandomizedSearchCV	随机搜索，随机采样	大多数情况，超参数≥3	`from sklearn.model_selection import RandomizedSearchCV`
hyperopt	贝叶斯优化，TPE算法	追求最好效果，少次尝试	`from hyperopt import hp, fmin, tpe`
loguniform	对数均匀分布	正则化强度C、gamma这类超参数	`from scipy.stats import loguniform`

关键总结：

超参数数量	推荐方法
1-2个	网格搜索
3个+	随机搜索
追求极致	贝叶斯优化

请在微信客户端打开

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

python从基础到AI-机器学习-超参数调优方法

目录

引言

解答上期作业：特征工程实践

核心任务：加州房价特征工程

进阶任务：泰坦尼克完整特征工程

一、什么是超参数

超参数vs模型参数

常见超参数举例

为什么需要调优

二、网格搜索

原理

代码示例

优缺点

三、随机搜索

原理

代码示例

网格搜索vs随机搜索

四、贝叶斯优化

原理简介

用hyperopt实战

五、贝叶斯优化vs随机搜索vs网格搜索

对比表格

怎么选择

动手实践：逻辑回归超参数调优

本期作业

核心任务

进阶任务

思考题

总结

附录：核心知识点速查表

最新文章

热门文章

随机文章

python从基础到AI-机器学习-超参数调优方法

目录

引言

解答上期作业：特征工程实践

核心任务：加州房价特征工程

进阶任务：泰坦尼克完整特征工程

一、什么是超参数

超参数vs模型参数

常见超参数举例

为什么需要调优

二、网格搜索

原理

代码示例

优缺点

三、随机搜索

原理

代码示例

网格搜索vs随机搜索

四、贝叶斯优化

原理简介

用hyperopt实战

五、贝叶斯优化vs随机搜索vs网格搜索

对比表格

怎么选择

动手实践：逻辑回归超参数调优

本期作业

核心任务

进阶任务

思考题

总结

附录：核心知识点速查表

Python实现零门槛微信工具

一招教会你如何快速入门Python!

最新文章

热门文章

随机文章