CDA数据分析师授权讲师
帆软数据应用研究院专家
广州大数据行业协会智库专家
计算机软件与理论硕士研究生,华为工作十年,五项国家专利,在华为工作期间获得华为数项奖项,对大数据分析与应用有深入的研究。
培训十年,服务的客户遍及通信、金融、交通、制造、政府等行业,其中包括中国银行、招商银行、平安集团、移动、华为、施耐德、富士康、西部航空、广州地铁、东风日产、广州税务、良品铺子、中冶赛迪、埃森哲、海天集团、正泰电器、徐工集团等公司和单位。
傅老师专注于大数据分析与挖掘、机器学习等应用技术。旨在将大数据的数据分析、数据挖掘、数据建模应用于行业及商业领域,解决行业实际的问题。
- 让管理更高效:将大数据应用于企业管理,用大数据探索企业发展规律和行业发展趋势,有效预判市场变化和需求,基于规律和预判来进行管理决策,并实现组织架构演变、人才新技能培养、生产流程优化,以及服务效率提升,最终匹配市场未来的变化需要,提升企业管理效率。
- 让决策更科学:将大数据应用于运营决策,用大数据呈现企业整体经营状况,诊断运营问题和风险,找到业务短板,全面理解组织、产品、人员、营销、财务等要素间的相关性,实现企业资源的最优化配置,提升科学决策能力。
- 让营销更精准:将大数据应用于市场营销,解决营销中的用户群细分和品牌定位,客户价值评估,分析用户需求,产品设计优化,产品最优定价等实际问题,实现精准营销和精准推荐,以最小的营销成本实现最大化的营销效果。
出版书籍
傅一航出版的书籍有:《商业分析思维与实践--用数据分析解决商业问题》,北京大学出版社,2024年1月上架。
课程特色
傅老师目前致力于将大数据技术应用于通信、金融、电商、互联网、制造业、政府等领域。傅老师的课程最大特色:实战性强!“围绕业务问题+搭建分析框架+运用分析方法+建立分析模型+熟悉分析工具+形成业务策略”。
以商业目标为起点,基于实际的业务应用场景(明确目的),搭建全面系统的业务框架和分析维度(分析思路),选择最合适的方法(分析方法),深入浅出的理论讲解(分析模型),使用简单实用的工具操作(分析工具),对分析结果进行有效的解读(数据可视化),最终形成具体的业务建议,实现业务分析/数据分析的闭环。
ž重思路:数据思维+分析框架;
ž重体系:分析过程+分析阶段;
ž重实战:分析方法+分析模型+分析工具;
ž重落地:可视化+数据解读+业务策略。
课程主题
大数据的培训主题有:
董事长总经理高管的课程:
《数字化战略与数字化变革》
《大数据思维与应用创新》
《大数据思维与商业模式创新,赋能企业增长》
《大数据思维与大数据决策,提升决策能力》
大数据市场营销的课程:
《大数据时代的精准营销》
《数说营销----大数据营销分析实战与沙盘》
《市场营销大数据分析实战培训》
《大数据助力市场营销与服务提升》
大数据分析应用类的课程:
《大数据分析综合能力提升实战》
《大数据建模与模型优化实战培训》
《大数据挖掘之SPSS工具入门与提高》
《金融行业风险预测模式实战培训》
《数据分析及生产运营实际应用》
大数据分析语言Python课程:
《Python开发基础实战培训》
《Python数据分析与可视化实战》
《Python数据建模与模型评估实战》
《Python模型优化与特征优化实战》
《Python机器学习算法实战》
《Python RPA办公流程自动化》
《大数据建模大赛实战辅导》
Python模型优化与特征优化实战
【课程目标】
本课程主要面向专业人士的大数据建模竞赛辅导需求(假定学员已经完成Python建模的学习),主要介绍建模优化思路和措施。
通过本课程的学习,达到如下目的:
1、熟悉模型优化思路和方向,掌握模型优化措施
2、理解超参优化的搜索策略和方法(网格/随机/贝叶斯搜索)
3、掌握集成优化思路,理解Bagging/Boosting/Stacking的优劣势
4、掌握特征优化各种措施,以及对模型质量的影响
5、理解各种预测模型对特征工程的要求及影响
6、掌握管道类(Pipeline,ColumnTransformer)的使用,简化代码编码,提升建模效率
【授课时间】
2天时间(会根据需求和学员水平调整进度)
时间 | | 主题 | 主要内容 |
第三天 | 上午 | 超参优化方法 集成算法优化 | 网络/随机/贝叶斯搜索 集成优化思想 Bagging与随机森林 |
下午 | 集成算法优化 | Boosting与GBDT/XGBoost/LightGBM Stacking:XGBoost+LR/SVR |
第四天 | 上午 | 特征工程优化 | 缺失值填充、样本均衡、 特征选择、因子合并、 标准化、变量派生 |
下午 | 管道技术实现 建模实战练习 | Pipeline, columntransformer, FeatureUnion |
【授课对象】
参加大数据建模大赛的IT专业人士。
要求精通Python语言,熟悉sklearn机器学习库的基本使用等。
【授课方式】
理论框架+落地措施+实战训练
【课程大纲】
第一部分: 模型超参优化
1、模型优化的三大方向
2、模型超参优化原理
3、超参优化通用方法
Ø网格搜索GridSearchCV(更具通用性)
Ø随机搜索RandomizedSearchCV
Ø贝叶斯超参优化BayesSearchCV
Ø超参搜索空间的表示方式
4、模型优化
Ø优化模型:选择新模型/修改模型
Ø优化数据:新增显著自变量
Ø优化公式:采用新的计算公式
第二部分: 模型集成优化
1、模型集成思想
2、模型集成的关键问题
Ø如何得到基类模型
Ø如何选择结合策略
3、Bagging集成基本原理
Ø有放回抽样
Ø加权投票
4、随机森林RandomForest
5、Boosting集成基本原理
Ø基于错分样本的基类模型
Ø预测概率加权求和
6、Boosting典型模型
ØAdaboost
ØGBDT梯度提升树
ØXGBoost大赛利器
ØXGBoost原理、早期停止、自定义损失函数
7、Stacking集成基本原理
ØXGBoost+SVM
第三部分: 特征工程优化
1、为什么要做特征工程
2、特征工程内容
Ø异常数据处理
Ø变量变换
Ø变量派生
Ø类型转换
Ø特征选择
Ø因子合并
3、缺失值对模型的影响
Ø缺失值填充方式:固定值填充、两点插值法、拉格朗日插值、。。。
Ø不同填充方式对模型效果的影响
案例:泰坦尼克号沉船幸存者预测
4、预测离群值的识别与处理
5、样本均衡的5种方式
6、特征选择的:选择重要变量,剔除不重要变量
ØFilter/Wrapper/Embedded
7、基于变量本身的重要性筛选
Ø缺失值所占比例过大
Ø标准差/变异系数过小(VarianceThreshold)
Ø类别值比值失衡严重
Ø类别值与样本量比例过大
8、Filter式(特征选择与模型分离)
Ø常用评估指标(相关系数/显著性/互信息等)
Øf_regression,f_classif,chi2,
Ømutual_info_regression,mutual_info_classif
案例:客户流失预测的特征选择
9、Wrapper式(利用模型结果进行特征选择)
ØSklearn实现(RFE/RFECV-Recursive Feature Elimination)
10、Embedded式(模型自带特征选择功能)
ØL1正则项(Lasso/ElasticNet)
Ø信息增益(决策树)
ØSklearn实现(SelectFromModel)
11、因子合并
Ø因子分析原理及思想(FactorAnalysis)
Ø载荷矩阵相关概念(变量共同度/方差贡献率)
Ø如何确定降维的因子个数
Ø主成份分析(Principal Component Analysis)原理
ØPCA的几何意义
案例:汽车油效预测
12、变量变换
Ø为何需要变量变换
Ø函数转换:中心化、对数变换、平方根变换…
Ø标准化转换:min-max、mean、max absolution、Z-score…
Ø正则化转换:将数据缩放到单位范式(L1/L2变换)
Ø正态化转换:将变量转换成正态分布(Box-Cox、Yeo-Johnson)
Ø因变量变换对模型质量的影响
案例:波士顿房价预测
13、特征标准化
Ø标准化的作用: 缩小,消除/统一量纲
Ø常用标准化方法:MinMaxScaler, StandardScaler,…
Ø不同模型对标准化的要求
Ø不同标准化对模型的影响
案例:医院肿瘤预测
14、其它变换:正态化、正则化
15、变量派生:多项式等
第四部分: 管道技术实现
1、管道实现的价值
2、常用管道实现类
3、管道类Pipeline
4、列转换类ColumnTransformer
5、特征合并类FeatureUnion
第五部分: XGBoost模型详解及优化
1、基本参数配置
Ø框架基本参数: n_estimators, objective
Ø性能相关参数: learning_rate
Ø模型复杂度参数:max_depth,min_child_weight,gamma
Ø生长策略参数: grow_policy, tree_method, max_bin
Ø随机性参数:subsample,colsample_bytree
Ø正则项参数:reg_alpha,reg_lambda
Ø样本不均衡参数: scale_pos_weight
2、早期停止与基类个数优化(n_estimators、early_stopping_rounds)
3、样本不平衡处理
Ø欠抽样与过抽样
Øscale_pos_weight=neg_num/pos_num
4、XGBoost模型欠拟合优化措施
Ø增维,派生新特征
a)非线性检验
b)相互作用检验
Ø降噪,剔除噪声数据
c)剔除不显著影响因素
d)剔除预测离群值(仅回归)
e)多重共线性检验(仅回归)
Ø变量变换
f)自变量标准化
g)残差项检验与因变量变换
Ø增加树的深度与复杂度
h)增大max_depth
i)减小min_child_weight, gamma等
Ø禁止正则项生效
5、特征重要性评估与自动特征选择
6、超参优化策略:
Ø分组调参:参数分组分别调优
Ø分层调参:先粗调再细调
7、XGBoost模型过拟合优化措施
Ø降维,减少特征数量
Ø限制树的深度和复杂度
j)减小max_depth
k)增大min_child_weight,gamma等
Ø采用dart模型来控制过拟合(引入dropout技术)
Ø启用正则项惩罚:reg_alpha,reg_lambda等
Ø启用随机采样:subsample,colsample_bytree等
8、Stacking模式:XGBoost+LR、XGBoost+RF等
9、XGBoost的优化模型:LightGBM
第六部分: 实战训练篇
1、互联网广告判断模型
2、客户流失预测模型
3、直销响应模型
结束:课程总结与问题答疑。