专题一:AI编程代理与Python数据分析基础
1.AI Agent+Python最佳搭配五大优势:科研效率、自动化程度、数据精度、批量处理能力、可控性与稳定性全面提升
2.Python环境配置及插件安装:Mac/Win通用
3.主流AI编程代理工具(Codex、Claude Code等)原理及对标:颠覆性本地编程范式,包括核心优势及适用场景
4.Codex、Claude Code等主流编程代理接入方式——手把手配置:IDE插件模式终端CLI模式 VS Web对话模式
5.人机协作让新手快速上手Python编程:快速理解Python数据类型(数字、字符串、布尔值等);数据结构(列表/元组/集合/字典)用法;控制流与函数式编程;文件读写(Stata、Excel、CSV、txt等读写);异常处理(try-except-finally 结构);统计分析(分组计算、分组均值、移动平均值、方差、标准差);表格批操作(apply);面板数据匹配(数据拼接、合并)
6.让AI成为你的“私人编程导师”:“问-写-跑-改”四步循环法用自然语言零代码指挥AI完成数据分析任务
7.零/低代码Python实战案例:
实战案例1:区域与上市公司面板数据构建
使用插值法填充地级市夜间灯光数据,并匹配到上市公司数据,并做描述性统计分析
实战案例2:基于专利数据计算利用式创新和探索式创新
方法复刻参考文献:Guan J, Liu N. Exploitative and exploratory innovations in knowledge network and collaboration network: A patent analysis in the technological field of nano-energy[J]. Research policy, 2016, 45(1): 97-112.
专题二:AI智能体、Skill设计与科研自动化
1.斯坦福大学Andy Hall、经济学顶刊JPE副主编David Yanagizawa-Drott实证研究自动化工作流拆解
2.AI Agent原理、部署与配置:AI Agent核心组件(规划、记忆、工具调用)、主流框架对比Codex / OpenClaw / Claude / Coze;Codex手把手安装配置教学(Mac / Windows)
3.Skill开发、改良与封装:Skill定义与科研价值、Skill标准结构(元数据、输入/输出、处理逻辑、测试用例)、开发流程、社区资源获取(ClawHub、SkillHub)、现成Skill个性化改良方法(提示词修改、后处理逻辑增加)、Skill封装
4.Skill+Python打造高效科研论文工作流
实战案例3:定制多智能体协作选题系统:自动分析最新论文、关键词趋势和CSSCI2026年选题,生成候选主题配置智能体,流水线+投票:检索→趋势→生成→评估→整合,其中评估智能体可调用多个子模型(如GPT-4、Claude、Deepseek)分别打分后取平均。
实战案例4:论文写作辅助与自动排版系统:自动化流水线,文献梳理整合 → 大纲与论文结构生成 → 论文内容填充 → 引用管理 → LaTeX或Word格式排版输出。
5.智能体时代学者数据能力重构:学者如何快速掌握计算社会科学、数据科学基础技术本质、内核,高效驾驭“人机协同”实证数据分析。
专题三:AI驱动Python科研数据自动化采集
1.数据自动化采集原理与注意事项
2.requests发送网页信息请求:GET和POST
3.网页常见返回结果解析:纯文本、HTML、JSON格式解析、文件下载
4.返回数据保存到本地路径:CSV、Excel、MySQL
5.常见反爬手段及其应对措施:IP封禁、请求头构造、Cookies获取、代理IP池使用、图片验证码
6.高效数据采集策略:多进程与多线程
实战案例5:上市公司年报PDF自动化下载
实战案例6:中国证券监督管理委员会行政处罚数据采集
实战案例7:土地市场网数据采集
实战案例8:AI自动化采集科研数据案例
专题四:机器学习、深度学习与智能体Skill封装
1.机器学习基本概念
(1)机器学习基本原理,监督学习 vs 无监督学习
(2)回归(Regression)VS分类(Classification)
(3)数据集划分及用途:训练集、测试集、验证集
(4)机器学习模型核心评价指标
a)回归分析评价指标:MAE、MSE、RMSE、R²等
b)分类模型评价指标:准确率、精确率、召回率、F1值等
2.数据准备与特征工程
(1)特征与标签
(2)使用 Pandas 构造特征矩阵 X 和目标向量 y
(3)简单缺失值处理与数据标准化/归一化
3.常见回归模型介绍与Python实现
(1)线性回归(LinearRegression)Python实现:惩罚性回归(LassoL1 正则,自动特征选择; Ridge);弹性网络(ElasticNet,L1+L2 混合)
(2)树模型Python实现:决策树、随机森林、梯度提升(GBDT)、因果森林(causal forests)、广义随机森林(GRF)
4.深度学习基础与Python实现
神经网络基础
深度神经网络(DNN)
卷积神经网络(CNN,主要用于图像处理领域)
循环神经网络(RNN,处理序列数据 如文本、音频、视频等)
5.双重机器学习原理与应用
双重机器学习原理及优势
基于EconML库实现双重机器学习(DDML)
学术图表输出:Python直接导出回归结果三线表
6.机器学习可解释性与自动化
可解释性:特征重要性(SHAP、LIME)解读
AutoML:自动模型选择与超参数调优(如AutoGluon、PyCaret)
7.现代机器学习Python实现
(1)ERNIE:基于BERT的预训练模型
(2)LangChain:自然语言处理中的链式结构模型
实战案例9:综合运用正则化回归、优化分布式梯度提升(XGBoost)和随机森林、神经网络审视因果效应
参考文献:
Hajime Shimao; , Sung Joo Kim; , Warut Khern-Am-Nuai, Maxime C. Cohen (2025) Revisiting the CEO Effect Through a Machine Learning Lens. Management Science 71(6):5396-5408.
实战案例10:卷积神经网络(CNN)等深度学习算法识别CEO年龄,仅复现其核心方法部分
方法复刻参考文献:Borgschulte, Mark, et al. "CEO stress, aging, and death." The Journal of Finance 80.6 (2025): 3401-3442.
实战案例11:构建机器学习Skill自动复现顶刊双重机器学习因果推断部分
参考文献:
王渊,李牧南,梁彦希.政策取向一致性与企业高质量绿色转型[J].管理世界,2025,41(07):108-139.
专题五:文本分析自然语言处理与智能体Skill封装
1.文本数据的预处理
a)从pdf文件(文字版/图片版)中提取文本和表格:PDF 转 txt 格式、pdfplumber 提取 PDF 表格、OCR识别PDF内容
b)中文分词:jieba、pkuseg(深度学习分词)
c)英文分词:nltk
d)文本断句:正则表达式实现文本清洗与断句
2.文本的表示方法与向量化
a)传统方法:词频统计、句频统计、TF-IDF加权、词云图
d)词嵌入技术Word2Vec
e)Embedding模型:大语言模型和检索系统的核心技术基石
3.文本相似度计算(可计算信息含量差异性等)
a)传统方法:余弦相似度、Jaccard系数
b)基于统计与浅层语义的方法:TF-IDF 余弦相似度、Word Embedding加权平均
c)深度语义相似度:Sentence Embeddings获取句子级别的向量表示
4.文本主题建模
a)LDA主题建模
b)DTM动态主题模型,追踪主题演变
c)BERTopic主题模型:超实用和强大的主题建模
5.文本情感分析
a)基于词典的方法(情感词库)
b)基于机器学习的方法:朴素贝叶斯、支持向量机、逻辑回归、随机森林等
c)基于深度学习的方法:Word2Vec预训练词向量作为输入
实战案例12:提取上市公司年报表格中主要产品名称、年报核心竞争力板块文本信息
复刻参考文献:戚聿东,孙昌玲,王化成.企业核心竞争力能够降低权益资本成本吗——基于文本分析的经验证据[J].会计研究,2021,(08):94-106.
实战案例13:文本分析识别人工智能专利:分别使用词袋法(计数词出现次数)和基于嵌入的方法(如 word2vec、BERT 等无监督方法生成向量)。测试不同的分类模型
参考文献:
Miric, Milan, Nan Jia, and Kenneth G. Huang. "Using supervised machine learning for large‐scale classification in management research: The case for identifying artificial intelligence patents." Strategic Management Journal 44.2 (2023): 491-519.
实战案例14:构建文本分析Skill,基于BERTopic量化出的不同ESG主题在A股年报中的“篇幅比例”
参考文献:
Ferjančič, Urša, et al. "Textual analysis of corporate sustainability reporting and corporate ESG scores." International Review of Financial Analysis 96 (2024): 103669.
专题六:社会网络、知识图谱与智能体Skill封装
1.社会网络分析Python核心库简介:Networkx
2.网络构建与可视化:从矩阵、DataFrame等常见数据结构中构建网络
4.网络结构分析:社区划分(CDlib 社区发现算法集合)、子群、模块度
5.网络节点分析
(1)常用指标:网络中心性(出/入度中心度、中介中心度、接近中心度、特征向量中心度)、结构洞指数、PageRank、TextRank等
(2)拓展指标:最短路距离、离心度、自我中心网络指标、网络直径、网络密度等
6.语义网络与知识图谱
7.图数据库:Neo4j核心机制和实操全解
实战案例15:国际贸易网络构建:UN Comtrade贸易数据清洗 → 网络构建→ 可视化→ 计算中心性、网络密度,识别关键节点
核心技术复现参考文献:
王群勇,王浩竹,宋润宇.气温冲击、贸易网络与经济增长[J].经济研究,2026,61(01):167-189.
实战案例16:基于GPT模型与neo4j图数据库构建人工智能专利知识图谱
核心技术复现参考文献:
周贞云,黄昭昭,邱均平.基于LLM与可视化的图数据库专利知识图谱构建及分析[J].情报杂志,1-9.
实战案例17:社会网络分析Skill开发,上市公司供应链网络构建:从供应链关系数据构建有向网络 → 计算中心性、网络密度 → 识别关键节点
参考文献:
陈雯,范茵子.企业供应链风险感知与合作关系稳定性[J].管理世界,2024,40(11):209-228.
专题七:Python大语言模型与智能体Skill封装
1.基于Transformer架构的大语言模型
a)Transformer的基本原理和结构、注意力机制;
b)编码器和解码器的结构;
c)Transformer大语言模型:Generative (decoder) models、Masked (encoder) language models
2.大语言模型FT50及中文顶刊应用总结
3.顶刊中基础大模型特点及Python调用:GPT、通义千问qwen3 模型、DeepSeek
4.ollama本地部署大模型
5.Prompt工程技术:面向Python的AI高质量输出技巧
(1)精准输出技巧:如何人机结合用好AI,最大化减少偏误和幻觉?
参考文献:Baumann, J., Röttger, P., Urman, A., Wendsjö, A., Plaza-del-Arco, F. M., Gruber, J. B., & Hovy, D. (2025). Large language model hacking: Quantifying the hidden risks of using LLMs for text annotation. arXiv.
(2)结构化输出技巧:输出Python代码可处理的数据结构
6.预训练模型的对比、训练及应用:BERT、Sentence BERT、Fin BERT、RoBERTa、DistilBERT、SciBERT、PatentSBERTa、HeBERT、ERNIE、RoBERTa
7.检索增强技术RAG及实战应用
实战案例18:结构化数据的记录连接(匹配)
大模型在不同数据集中匹配个体、地点、公司、组织、产品描述或学术论文等信息,大模型在记录连接方面表现出了巨大的潜力,以大语言模型完成大数据匹配任务:招聘数据与中国职业分类大典匹配为例进行讲解
参考文献:
张星民,张建清,刘小慧,等.外部技术断供、工作任务与企业劳动力需求结构——基于Transformer架构大数据文本挖掘的微观证据[J].数量经济技术经济研究,2025,42(09):72-93.
实战案例19:大模型工作流Skill开发,自动调用GPT模型辅助识别中国上市制造企业年报文本中的服务类型
参考文献:
Niu Y, Wu J, Jiang S, et al. The bullwhip effect in servitized manufacturers[J]. Management Science, 2025, 71(1): 1-20.
专题八:大语言模型挖掘多模态数据构建实证变量
1.实证变量构建思路:大语言模型构建实证变量
实战案例20:用ChatGPT测量企业商业复杂度
参考文献:
Bernard, D., Blankespoor, E., de Kok, T., & Toynbee, S. (2026). Using GPT to measure business complexity. The Accounting Review, 1-36.
2.大语言模型文本指标提取之情感分析
实战案例21:利用大语言模型构建AI情感指标
核心方法参考文献:Chang, Anne Yanru, et al. "AI democratization and trading inequality." Journal of Accounting Research (2026).
3.大语言模型文本指标提取之文本相似度
实战案例22:采用无监督词嵌入方法Sentence-BERT计算余弦距离
核心方法参考文献:Bao, Jiayi. "Do makerspaces affect entrepreneurship? If so, who, how, and when?." Strategic Management Journal 46.2 (2025): 502-533.
4.大语言模型图片指标提取:从图片中提取结构化数据
实战案例23:大语言模型识别图片表情信息
核心方法参考文献:Momtaz P P. CEO emotions and firm valuation in initial coin offerings: an artificial emotional intelligence approach[J]. Strategic Management Journal, 2021, 42(3): 558-578.
5.大语言模型音频指标提取:从音频中提取结构化数据
实战案例24:大语言模型识别公开音频信息
核心方法相关文献:CHENG, S.-Y. and GOLSHAN, N.M. (2025), Silent Suffering: Using Machine Learning to Measure CEO Depression. Journal of Accounting Research, 63: 689-767.
专题九:大语言模型关系抽取与因果效应
1.大语言模型构建商业网络
实战案例25:借助AI强大能力,为公司生成历史业务描述,结合先进的嵌入模型,构建出能体现企业间业务联系的时变业务网络。
参考文献:
Breitung, C., & Müller, S. (2025). Global Business Networks. Journal of Financial Economics, 166, 104007.
2.大语言模型动态生成节点重要性评估算法
实战案例26:LLM+结合进化算法分析上市公司供应链网络关键节点
参考文献:
Mao, Jinzhu, et al. "Identify critical nodes in complex network with large language models." arXiv preprint arXiv:2403.03962 (2024).
3.大语言模型+BERT+知识图谱综合应用
实战案例27:通过大模型与思维链提示法(CoT)和检索增强生成(RAG)技术,识别复杂语境中隐含关系,转化为结构化知识图谱
参考文献:Kai Li, Feng Mai, Rui Shen, Chelsea Yang, Tengfei Zhang, Dissecting Corporate Culture Using Generative AI, The Review of Financial Studies, Volume 39, Issue 1, January 2026, Pages 253–296, https://doi.org/10.1093/rfs/hhaf081.
4.基于大语言模型因果图发现与因果效应估计
实战案例28:基于因果图方法揭示特征变量与结果变量之间的因果关系
利用大语言模型(LLM)丰富知识和强大语义理解推理能力,基于贝叶斯网络,表示DAG节点及边,构建因果图结构,并进行因果图检验与因果效应估计
核心方法参考来源:张宁,林黄奕,聂小成.信用违约与机器学习:数据驱动的大语言模型因果推断方法[J].北方民族大学学报,2026,(01):158-167.
专题十:大语言模型与ABM建模
1.传统经济学理论及其固有局限性和ABM技术的优势
2.ABM定义及核心思想:主体属性、交互规则、社会环境三类ABM建模核心要素
3.ABM基本方法体系与计算社会科学关系:复杂系统、社会网络分析、文本分析、自然语言处理、大语言模型、博弈模型等与ABM区别与联系
4.ABM建模的一般方法
(1)构建环境:交互地图、数据收集器、智能体调度器
(2)构建智能体:智能体交互规则、智能体行为
(3)大语言模型和AI智能体在ABM建模中可以做什么
5.ABM清晰且系统化的操作流程:典型ABM的基本结构、设计思路、校准技术
6.大语言模型模拟社交网络中的虚假信息传播
实战案例29:分析错误信息在智能体构成的网络中传播时的演变过程
核心技术复现参考文献:Maurya, R. G., Shukla, V., Dandekar, R. A., Dandekar, R., & Panat, S. (2024). Simulating misinformation propagation in social networks using large language models. arXiv.https://doi.org/10.48550/arXiv.2511.10384
7.构建智能体进行数据信息识别
实战案例30:构建基于大语言模型的智能体对上市公司年报MD&A文本进行评估
核心技术参考文献:杜旌,陈堰轩,黎玢倩,等.自然语言处理技术能否赋能绩效评估:新测量范式探索[J].南开管理评论,1-40.
8.大语言模型模拟情景实验
实战案例31:ABM建模Skill开发,选择管理学顶刊经典情景实验,用GPT、Qwen和DeepSeek进行“硅基复制”,模拟实验并进行数据分析
Cui, Z., Li, N. & Zhou, H. A large-scale replication of scenario-based experiments in psychology and management using large language models. Nat Comput Sci 5, 627–634 (2025).