当前位置：首页>python>傅一航——Python模型优化与特征优化实战

傅一航——Python模型优化与特征优化实战

2026-07-02 00:35:46

课程背景

本课程主要面向专业人士的大数据建模竞赛辅导需求（假定学员已经完成Python建模的学习），主要介绍建模优化思路和措施。

课程对象

参加大数据建模大赛的IT专业人士。

要求精通Python语言，熟悉sklearn机器学习库的基本使用等。

课程目标

1、熟悉模型优化思路和方向，掌握模型优化措施

2、理解超参优化的搜索策略和方法（网格/随机/贝叶斯搜索）

3、掌握集成优化思路，理解Bagging/Boosting/Stacking的优劣势

4、掌握特征优化各种措施，以及对模型质量的影响

5、理解各种预测模型对特征工程的要求及影响

6、掌握管道类(Pipeline,ColumnTransformer)的使用，简化代码编码，提升建模效率

课程大纲

第一部分：模型超参优化

1、模型优化的三大方向

2、模型超参优化原理

3、超参优化通用方法

Ø网格搜索GridSearchCV（更具通用性）

Ø随机搜索RandomizedSearchCV

Ø贝叶斯超参优化BayesSearchCV

Ø超参搜索空间的表示方式

4、模型优化

Ø优化模型：选择新模型/修改模型

Ø优化数据：新增显著自变量

Ø优化公式：采用新的计算公式

第二部分：模型集成优化

1、模型集成思想

2、模型集成的关键问题

Ø如何得到基类模型

Ø如何选择结合策略

3、 Bagging集成基本原理

Ø有放回抽样

Ø加权投票

4、随机森林RandomForest

5、 Boosting集成基本原理

Ø基于错分样本的基类模型

Ø预测概率加权求和

6、 Boosting典型模型

ØAdaboost

ØGBDT梯度提升树

ØXGBoost大赛利器

ØXGBoost原理、早期停止、自定义损失函数

7、 Stacking集成基本原理

ØXGBoost+SVM

第三部分：特征工程优化

1、为什么要做特征工程

2、特征工程内容

Ø异常数据处理

Ø变量变换

Ø变量派生

Ø类型转换

Ø特征选择

Ø因子合并

3、缺失值对模型的影响

Ø缺失值填充方式：固定值填充、两点插值法、拉格朗日插值、。。。

Ø不同填充方式对模型效果的影响

案例：泰坦尼克号沉船幸存者预测

4、预测离群值的识别与处理

5、样本均衡的5种方式

6、特征选择的：选择重要变量，剔除不重要变量

ØFilter/Wrapper/Embedded

7、基于变量本身的重要性筛选

Ø缺失值所占比例过大

Ø标准差/变异系数过小（VarianceThreshold）

Ø类别值比值失衡严重

Ø类别值与样本量比例过大

8、 Filter式(特征选择与模型分离)

Ø常用评估指标(相关系数/显著性/互信息等)

Øf_regression,f_classif,chi2,

Ømutual_info_regression,mutual_info_classif

案例：客户流失预测的特征选择

9、 Wrapper式(利用模型结果进行特征选择)

ØSklearn实现（RFE/RFECV-Recursive Feature Elimination)

10、 Embedded式(模型自带特征选择功能)

ØL1正则项(Lasso/ElasticNet)

Ø信息增益(决策树)

ØSklearn实现（SelectFromModel）

11、因子合并

Ø因子分析原理及思想（FactorAnalysis）

Ø载荷矩阵相关概念(变量共同度/方差贡献率)

Ø如何确定降维的因子个数

Ø主成份分析（Principal Component Analysis）原理

ØPCA的几何意义

案例：汽车油效预测

12、变量变换

Ø为何需要变量变换

Ø函数转换：中心化、对数变换、平方根变换…

Ø标准化转换：min-max、mean、max absolution、Z-score…

Ø正则化转换：将数据缩放到单位范式(L1/L2变换)

Ø正态化转换：将变量转换成正态分布(Box-Cox、Yeo-Johnson)

Ø因变量变换对模型质量的影响

案例：波士顿房价预测

13、特征标准化

Ø标准化的作用: 缩小，消除/统一量纲

Ø常用标准化方法:MinMaxScaler, StandardScaler,…

Ø不同模型对标准化的要求

Ø不同标准化对模型的影响

案例：医院肿瘤预测

14、其它变换：正态化、正则化

15、变量派生：多项式等

第四部分：管道技术实现

1、管道实现的价值

2、常用管道实现类

3、管道类Pipeline

4、列转换类ColumnTransformer

5、特征合并类FeatureUnion

第五部分：XGBoost模型详解及优化

1、基本参数配置

Ø框架基本参数: n_estimators, objective

Ø性能相关参数: learning_rate

Ø模型复杂度参数:max_depth,min_child_weight,gamma

Ø生长策略参数: grow_policy, tree_method, max_bin

Ø随机性参数：subsample,colsample_bytree

Ø正则项参数:reg_alpha,reg_lambda

Ø样本不均衡参数: scale_pos_weight

2、早期停止与基类个数优化（n_estimators、early_stopping_rounds）

3、样本不平衡处理

Ø欠抽样与过抽样

scale_pos_weight=

neg_num/pos_num

4、 XGBoost模型欠拟合优化措施

Ø增维，派生新特征

a) 非线性检验

b) 相互作用检验

Ø降噪，剔除噪声数据

a) 剔除不显著影响因素

b) 剔除预测离群值（仅回归）

c) 多重共线性检验（仅回归）

Ø变量变换

a) 自变量标准化

b) 残差项检验与因变量变换

Ø增加树的深度与复杂度

a) 增大max_depth

b) 减小min_child_weight, gamma等

Ø禁止正则项生效

5、特征重要性评估与自动特征选择

6、超参优化策略：

Ø分组调参：参数分组分别调优

Ø分层调参：先粗调再细调

7、 XGBoost模型过拟合优化措施

Ø降维，减少特征数量

Ø限制树的深度和复杂度

a) 减小max_depth

b) 增大min_child_weight，gamma等

Ø采用dart模型来控制过拟合(引入dropout技术)

Ø启用正则项惩罚:reg_alpha,reg_lambda等

Ø启用随机采样:subsample,colsample_bytree等

8、 Stacking模式：XGBoost+LR、XGBoost+RF等

9、 XGBoost的优化模型：LightGBM

第六部分：实战训练篇

1、互联网广告判断模型

2、客户流失预测模型

3、直销响应模型

结束：课程总结与问题答疑。

联系我们

张老师：13418808405

扫码添加

获取名师资料

公司简介

深圳未莱师资教育科技有限公司

公司简介：在知识经济蓬勃发展的今天，未莱师资经纪致力于成为企业成长与讲师价值之间的“最优连接器”。

我们专注于为全国各大培训机构与咨询公司、商学院、提供高品质、高精准、高效率的讲师经纪服务。未莱不仅仅是一个平台，更是一个汇聚行业智慧的“师资能量场”。我们深知，每一位优秀的讲师都是点亮企业未来的“火炬”，而我们的使命，就是精准匹配这束光，照亮企业人才发展的道路。依托于严谨的筛选机制与深厚的行业积淀，我们整合了全领域的实战派专家，致力于构建一个高效、共赢的培训生态圈，让知识的传递更精准，让人才的成长更有力。

服务理念：精准匹配 • 高效省心 • 共赢未来