当前位置：首页>python>《Python模型优化与特征优化实战》主讲老师:傅一航

《Python模型优化与特征优化实战》主讲老师:傅一航

2026-07-03 16:58:40

傅一航老师：大数据专家

CDA数据分析师授权讲师

帆软数据应用研究院专家

广州大数据行业协会智库专家

计算机软件与理论硕士研究生，华为工作十年，五项国家专利，在华为工作期间获得华为数项奖项，对大数据分析与应用有深入的研究。

培训十年，服务的客户遍及通信、金融、交通、制造、政府等行业，其中包括中国银行、招商银行、平安集团、移动、华为、施耐德、富士康、西部航空、广州地铁、东风日产、广州税务、良品铺子、中冶赛迪、埃森哲、海天集团、正泰电器、徐工集团等公司和单位。

傅老师专注于大数据分析与挖掘、机器学习等应用技术。旨在将大数据的数据分析、数据挖掘、数据建模应用于行业及商业领域，解决行业实际的问题。

让管理更高效：将大数据应用于企业管理，用大数据探索企业发展规律和行业发展趋势，有效预判市场变化和需求，基于规律和预判来进行管理决策，并实现组织架构演变、人才新技能培养、生产流程优化，以及服务效率提升，最终匹配市场未来的变化需要，提升企业管理效率。
让决策更科学：将大数据应用于运营决策，用大数据呈现企业整体经营状况，诊断运营问题和风险，找到业务短板，全面理解组织、产品、人员、营销、财务等要素间的相关性，实现企业资源的最优化配置，提升科学决策能力。
让营销更精准：将大数据应用于市场营销，解决营销中的用户群细分和品牌定位，客户价值评估，分析用户需求，产品设计优化，产品最优定价等实际问题，实现精准营销和精准推荐，以最小的营销成本实现最大化的营销效果。

出版书籍

傅一航出版的书籍有：《商业分析思维与实践--用数据分析解决商业问题》，北京大学出版社，2024年1月上架。

课程特色

傅老师目前致力于将大数据技术应用于通信、金融、电商、互联网、制造业、政府等领域。傅老师的课程最大特色：实战性强！“围绕业务问题+搭建分析框架+运用分析方法+建立分析模型+熟悉分析工具+形成业务策略”。

以商业目标为起点，基于实际的业务应用场景（明确目的），搭建全面系统的业务框架和分析维度（分析思路），选择最合适的方法（分析方法），深入浅出的理论讲解（分析模型），使用简单实用的工具操作（分析工具），对分析结果进行有效的解读（数据可视化），最终形成具体的业务建议，实现业务分析/数据分析的闭环。

ž重思路：数据思维+分析框架；

ž重体系：分析过程+分析阶段；

ž重实战：分析方法+分析模型+分析工具；

ž重落地：可视化+数据解读+业务策略。

课程主题

大数据的培训主题有：

董事长总经理高管的课程：

《数字化战略与数字化变革》

《大数据思维与应用创新》

《大数据思维与商业模式创新，赋能企业增长》

《大数据思维与大数据决策，提升决策能力》

大数据市场营销的课程：

《大数据时代的精准营销》

《数说营销----大数据营销分析实战与沙盘》

《市场营销大数据分析实战培训》

《大数据助力市场营销与服务提升》

大数据分析应用类的课程：

《大数据分析综合能力提升实战》

《大数据建模与模型优化实战培训》

《大数据挖掘之SPSS工具入门与提高》

《金融行业风险预测模式实战培训》

《数据分析及生产运营实际应用》

大数据分析语言Python课程：

《Python开发基础实战培训》

《Python数据分析与可视化实战》

《Python数据建模与模型评估实战》

《Python模型优化与特征优化实战》

《Python机器学习算法实战》

《Python RPA办公流程自动化》

《大数据建模大赛实战辅导》

Python模型优化与特征优化实战

【课程目标】

本课程主要面向专业人士的大数据建模竞赛辅导需求（假定学员已经完成Python建模的学习），主要介绍建模优化思路和措施。

通过本课程的学习，达到如下目的：

1、熟悉模型优化思路和方向，掌握模型优化措施

2、理解超参优化的搜索策略和方法（网格/随机/贝叶斯搜索）

3、掌握集成优化思路，理解Bagging/Boosting/Stacking的优劣势

4、掌握特征优化各种措施，以及对模型质量的影响

5、理解各种预测模型对特征工程的要求及影响

6、掌握管道类(Pipeline,ColumnTransformer)的使用，简化代码编码，提升建模效率

【授课时间】

2天时间（会根据需求和学员水平调整进度）

时间		主题	主要内容
第三天	上午	超参优化方法集成算法优化	网络/随机/贝叶斯搜索集成优化思想 Bagging与随机森林
下午	集成算法优化	Boosting与GBDT/XGBoost/LightGBM Stacking：XGBoost+LR/SVR
第四天	上午	特征工程优化	缺失值填充、样本均衡、特征选择、因子合并、标准化、变量派生
下午	管道技术实现建模实战练习	Pipeline, columntransformer, FeatureUnion

【授课对象】

参加大数据建模大赛的IT专业人士。

要求精通Python语言，熟悉sklearn机器学习库的基本使用等。

【授课方式】

理论框架+落地措施+实战训练

【课程大纲】

第一部分：模型超参优化

1、模型优化的三大方向

2、模型超参优化原理

3、超参优化通用方法

Ø网格搜索GridSearchCV（更具通用性）

Ø随机搜索RandomizedSearchCV

Ø贝叶斯超参优化BayesSearchCV

Ø超参搜索空间的表示方式

4、模型优化

Ø优化模型：选择新模型/修改模型

Ø优化数据：新增显著自变量

Ø优化公式：采用新的计算公式

第二部分：模型集成优化

1、模型集成思想

2、模型集成的关键问题

Ø如何得到基类模型

Ø如何选择结合策略

3、Bagging集成基本原理

Ø有放回抽样

Ø加权投票

4、随机森林RandomForest

5、Boosting集成基本原理

Ø基于错分样本的基类模型

Ø预测概率加权求和

6、Boosting典型模型

ØAdaboost

ØGBDT梯度提升树

ØXGBoost大赛利器

ØXGBoost原理、早期停止、自定义损失函数

7、Stacking集成基本原理

ØXGBoost+SVM

第三部分：特征工程优化

1、为什么要做特征工程

2、特征工程内容

Ø异常数据处理

Ø变量变换

Ø变量派生

Ø类型转换

Ø特征选择

Ø因子合并

3、缺失值对模型的影响

Ø缺失值填充方式：固定值填充、两点插值法、拉格朗日插值、。。。

Ø不同填充方式对模型效果的影响

案例：泰坦尼克号沉船幸存者预测

4、预测离群值的识别与处理

5、样本均衡的5种方式

6、特征选择的：选择重要变量，剔除不重要变量

ØFilter/Wrapper/Embedded

7、基于变量本身的重要性筛选

Ø缺失值所占比例过大

Ø标准差/变异系数过小（VarianceThreshold）

Ø类别值比值失衡严重

Ø类别值与样本量比例过大

8、Filter式(特征选择与模型分离)

Ø常用评估指标(相关系数/显著性/互信息等)

Øf_regression,f_classif,chi2,

Ømutual_info_regression,mutual_info_classif

案例：客户流失预测的特征选择

9、Wrapper式(利用模型结果进行特征选择)

ØSklearn实现（RFE/RFECV-Recursive Feature Elimination)

10、Embedded式(模型自带特征选择功能)

ØL1正则项(Lasso/ElasticNet)

Ø信息增益(决策树)

ØSklearn实现（SelectFromModel）

11、因子合并

Ø因子分析原理及思想（FactorAnalysis）

Ø载荷矩阵相关概念(变量共同度/方差贡献率)

Ø如何确定降维的因子个数

Ø主成份分析（Principal Component Analysis）原理

ØPCA的几何意义

案例：汽车油效预测

12、变量变换

Ø为何需要变量变换

Ø函数转换：中心化、对数变换、平方根变换…

Ø标准化转换：min-max、mean、max absolution、Z-score…

Ø正则化转换：将数据缩放到单位范式(L1/L2变换)

Ø正态化转换：将变量转换成正态分布(Box-Cox、Yeo-Johnson)

Ø因变量变换对模型质量的影响

案例：波士顿房价预测

13、特征标准化

Ø标准化的作用: 缩小，消除/统一量纲

Ø常用标准化方法:MinMaxScaler, StandardScaler,…

Ø不同模型对标准化的要求

Ø不同标准化对模型的影响

案例：医院肿瘤预测

14、其它变换：正态化、正则化

15、变量派生：多项式等

第四部分：管道技术实现

1、管道实现的价值

2、常用管道实现类

3、管道类Pipeline

4、列转换类ColumnTransformer

5、特征合并类FeatureUnion

第五部分： XGBoost模型详解及优化

1、基本参数配置

Ø框架基本参数: n_estimators, objective

Ø性能相关参数: learning_rate

Ø模型复杂度参数:max_depth,min_child_weight,gamma

Ø生长策略参数: grow_policy, tree_method, max_bin

Ø随机性参数：subsample,colsample_bytree

Ø正则项参数:reg_alpha,reg_lambda

Ø样本不均衡参数: scale_pos_weight

2、早期停止与基类个数优化（n_estimators、early_stopping_rounds）

3、样本不平衡处理

Ø欠抽样与过抽样

Øscale_pos_weight=neg_num/pos_num

4、XGBoost模型欠拟合优化措施

Ø增维，派生新特征

a)非线性检验

b)相互作用检验

Ø降噪，剔除噪声数据

c)剔除不显著影响因素

d)剔除预测离群值（仅回归）

e)多重共线性检验（仅回归）

Ø变量变换

f)自变量标准化

g)残差项检验与因变量变换

Ø增加树的深度与复杂度

h)增大max_depth

i)减小min_child_weight, gamma等

Ø禁止正则项生效

5、特征重要性评估与自动特征选择

6、超参优化策略：

Ø分组调参：参数分组分别调优

Ø分层调参：先粗调再细调

7、XGBoost模型过拟合优化措施

Ø降维，减少特征数量

Ø限制树的深度和复杂度

j)减小max_depth

k)增大min_child_weight，gamma等

Ø采用dart模型来控制过拟合(引入dropout技术)

Ø启用正则项惩罚:reg_alpha,reg_lambda等

Ø启用随机采样:subsample,colsample_bytree等

8、Stacking模式：XGBoost+LR、XGBoost+RF等

9、XGBoost的优化模型：LightGBM

第六部分：实战训练篇

1、互联网广告判断模型

2、客户流失预测模型

3、直销响应模型

结束：课程总结与问题答疑。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

《Python模型优化与特征优化实战》主讲老师:傅一航

出版书籍

课程特色

课程主题

第一部分：模型超参优化

第二部分：模型集成优化

第三部分：特征工程优化

第四部分：管道技术实现

第五部分： XGBoost模型详解及优化

第六部分：实战训练篇

最新文章

热门文章

随机文章

《Python模型优化与特征优化实战》主讲老师:傅一航

出版书籍

课程特色

课程主题

第一部分： 模型超参优化

第二部分： 模型集成优化

第三部分： 特征工程优化

第四部分： 管道技术实现

第五部分： XGBoost模型详解及优化

第六部分： 实战训练篇

Linux tee命令|一文吃透“分流输出”,终端与文件双向留存

手把手教你用Python开发一套招生管理系统(附完整源码)

最新文章

热门文章

随机文章

第一部分：模型超参优化

第二部分：模型集成优化

第三部分：特征工程优化

第四部分：管道技术实现

第六部分：实战训练篇