当前,“计量经济学+机器学习”(Econometrics + ML)的交叉融合已成为国际顶刊发表的新趋势。如何将机器学习对高维数据的处理能力与计量经济学的因果推断框架有机结合(如双重机器学习DML),如何利用自然语言处理(NLP)技术从政策文本中提取量化指标,以及如何利用可解释人工智能(XAI)打开模型黑箱,已成为当代科研工作者亟需掌握的核心竞争力。本课程正是基于这一前沿学术背景,旨在打破学科壁垒,通过Python这一强大工具,并利用AI辅助编程,极大降低入门难度,平滑学习曲线,助力实现从经典计量到前沿机器学习方法的全面赋能。
非会员费用:3680元 会员费用:会员政策参会【最高享受75折优惠】
【优惠活动】:
1:学生凭学生证有效证件参会可享受85折优惠。
2:转发朋友圈推荐好课程,集赞20枚可获得100元【设置公开可见】。
【会议赠送】:1个月ChatGPT会员【可同时使用Claude、Gemini、Grok等模型,无需科学上网】
专题一:科研写作框架(文献管理软件,资料分类整理方法)
1.搭建科研写作框架(研究文献的粗读→研究问题的确定→研究框架搭建(引言、文献综述、研究设计、研究结果与分析、政策启示与结论、研究摘要与关键词)→论文撰写与发表)
2.运用金字塔原理规范写作习惯(文字的高效精准表达与背后的原因)1.描述统计:均值/中位数、方差、四分位距、偏度/峰度;
2.推断统计:抽样分布、置信区间构造、假设检验(t检验、ANOVA、卡方);
3.正确理解p值与效应量,避免统计误用;
4.Python对描述性统计的实现专题三:多源异构数据整合(宏观数据库、微观调查与政策文本的获取与清洗)
1.宏观数据:World Bank、CEADs(中国碳核算数据库)、国家统计局(统计年鉴、统计公报)、ESGF(气象数据cimp6)、国家气象科学数据中心;
2.微观数据:CFPS(中国家庭追踪调查)、CHFS(中国家庭金融调查)、企业年报(Wind/CSMAR/Tushrae)结构解析;
3.网络数据:Requests + BeautifulSoup爬取政策文本或新闻;
4.清洗流程:缺失值处理(删除/插补)、异常值检测(IQR/Z-score)、变量标准化、面板数据构建(MultiIndex + merge)。专题四:经济学核心研究内容(综合评价、因果识别与预测)
1.评价:单指标评价、多指标综合评价(AHP、PCA、DEA等)、自动分类评价(K-Means、SVM等)
2.因果分析:在理论指导的前提下,建立模型,寻找真正的因果关系
3.预测:利用能获取的先行指标,对未来进行预测专题五:多指标综合评价(OPSIS-熵权法、DEA、K-Means)
1.TOPSIS-熵权法:通过熵权法确定各指标的权重,再利用TOPSIS方法对评价对象进行排序,从而实现对多指标决策问题的科学评估;(重点)
2.DEA:基于线性规划的非参数方法,用于评估多输入多输出决策单元(DMU)的相对效率;(重点)
3.K-Means:通过迭代优化簇中心和数据点的分配,使得簇内距离最小化,从而实现数据的分组。专题六:经典因果推断方法(OLS、固定效应、双重差分(DID)与工具变量(IV))
1.大样本OLS:因果分析的基石;
2.Logit:分类问题的统计模型;
3.VAR:向量自回归模型(Vector Autoregression, VAR),用于分析多个时间序列变量之间动态关系的统计模型;
4.ARIMA:(自回归积分滑动平均模型,Autoregressive Integrated Moving Average)是一种广泛应用于时间序列分析和预测的统计模型;
5.门限回归:用于分析数据中存在结构变化或阈值效应的统计方法;
6.DID:基于自然实验设计的计量经济学方法,用于评估政策或干预措施的因果效应;
7.面板模型:固定效应(FE)vs 随机效应(RE),Hausman检验;
8.聚类标准误(clustered SE)处理组内相关;(重点)专题七:机器学习赋能因果与预测(树模型、正则化回归与双重机器学习(DML))
1.Decision Tree:通过一系列规则将数据划分为不同的类别或预测连续值,适用于非线性关系和分类问题;
2.Gradient Boosting Decision Tree:通过逐步训练一系列决策树,每次训练都试图纠正前一次训练的残差(即误差),从而提高模型的整体预测性能;
3.XGBoost:通过优化决策树的构建过程,提高模型的预测性能,适用于复杂数据集;
4.Random Forest:集成多个决策树,通过随机抽样和特征选择提高模型的稳定性和准确性,适用于大规模数据集;
5.SVM:主要用于分类和回归任务。其核心思想是通过寻找一个最优超平面,将不同类别的数据点分开,同时最大化分类间隔;
6.Category Boost:基于梯度提升的机器学习算法,无需进行预处理。
7.AdaBoost:基于提升(Boosting)的集成学习方法,通过组合多个弱学习器(通常是简单的模型,如决策树桩)来构建一个强学习器。
8.Stacking:多模型组合回归。
9.提高均方误差(MSE,Mean Squared Error),平均绝对误差(MAE,Mean Absolute Error),决定系数(R2,R-squared)等3个指标,选取最优模型;
10.DML:结合机器学习与传统计量经济学的因果推断框架,旨在高维数据和非线性关系下无偏估计处理变量对结果变量的因果效应。(重点)
11.在确定存在因果关系的前提下,捕捉非线性关系,提高研究精度。专题八:空间计量分析
Moran's I 空间聚类:用于衡量空间自相关性的统计指标,通过比较一个位置的值与邻近位置的值之间的相似性来确定空间自相关性。
专题九:文本量化分析(LDA主题建模、词向量与语义指数构建)