当前位置：首页>python>大模型与智能体建模Python全流程!

大模型与智能体建模Python全流程!

2026-06-28 11:38:47

大模型与智能体建模Python全流程!

David Lazer教授等15位学者于2009年2月在Science发表里程碑式论文《Computational Social Science》，融合计算科学、数据科学与社会科学的计算社会科学应运而生，成为解码人类经济社会运行规律的科学利器。随着数字时代的发展，频率高、跨度大、范围广、多模态、规模大的经济社会运行资料得以被储存、采集、挖掘，以OpenClaw、Deepseek、Chatgpt等为代表的人工智能工具的涌现，再次掀起社会科学研究范式革命，智能体与Python/Stata等编程结合将使得实证数据分析效率、自动化程度、数据精度、批量处理能力、可控性与稳定性全面提升！
《大语言模型与Python计算社会科学实证量化特训营：从0基础到数据采集、文本分析、社会网络、机器学习、大模型与多智能体系统》是当前最强数智实证与计算社会科学训练营，深度教学大语言模型、智能体Skill及其在计算社会科学领域的高精度、高效率应用，涵盖数据采集、数据清洗、面板数据构建、文本分析NLP、机器/深度学习、社会网络分析、多模态信息提取、实证变量构建、知识图谱、ABM多主体建模等前沿数据分析方法。通过来自Management Science、Strategic Management Journal、Review of Finance、The Accounting Review、《经济研究》《管理世界》等20+顶刊方法案例（共31个案例，每个专题均含智能体Skills设计），帮助学员从0基础到能胜任顶刊方法的突破。
1. 课程概览

课程名称：大语言模型与Python计算社会科学实证量化特训营：从0基础到数据采集、文本分析、社会网络、机器学习、大模型与智能体建模

课程时间：2026年7月4-5,11-12,18-19,25-26日上午10:00-12:00,下午14:30-17:00

授课形式：腾讯会议线上直播＋课后回放＋课程资料+答疑

报名方式：

扫码报名

本课程优势：

（1）1V1技术咨询：学员可带着研究数据问题及技术困惑，课程团队将为学员提供专属技术可行路径评估和解答。

（2）全面覆盖前沿方法：几乎涵盖所有大语言模型计算社会科学国内外顶刊前沿方法精髓。

（3）可复用代码块和Sikll：提供31个案例代码，以及使用到的Skills，可快速复用。

（4）多系统兼容：安装配置及所有代码兼容Mac/Windows版本，赠价值499Python基础语法课+数据分析基础课

2. 授课团队

Simon博士，毕业于四川大学，科技公司技术总监，拥有丰富学术大模型开发、大规模数据采集、机器学习、因果推理经验

3. 课程大纲

专题一：AI编程代理与Python数据分析基础

1.AI Agent+Python最佳搭配五大优势：科研效率、自动化程度、数据精度、批量处理能力、可控性与稳定性全面提升

2.Python环境配置及插件安装：Mac/Win通用

3.主流AI编程代理工具（Codex、Claude Code等）原理及对标：颠覆性本地编程范式，包括核心优势及适用场景

4.Codex、Claude Code等主流编程代理接入方式——手把手配置：IDE插件模式终端CLI模式 VS Web对话模式

5.人机协作让新手快速上手Python编程：快速理解Python数据类型（数字、字符串、布尔值等）；数据结构（列表/元组/集合/字典）用法；控制流与函数式编程；文件读写（Stata、Excel、CSV、txt等读写）；异常处理（try-except-finally 结构）；统计分析（分组计算、分组均值、移动平均值、方差、标准差）；表格批操作（apply）；面板数据匹配（数据拼接、合并）

6.让AI成为你的“私人编程导师”：“问-写-跑-改”四步循环法用自然语言零代码指挥AI完成数据分析任务

7.零/低代码Python实战案例：

实战案例1：区域与上市公司面板数据构建

使用插值法填充地级市夜间灯光数据，并匹配到上市公司数据，并做描述性统计分析

实战案例2：基于专利数据计算利用式创新和探索式创新

方法复刻参考文献：Guan J, Liu N. Exploitative and exploratory innovations in knowledge network and collaboration network: A patent analysis in the technological field of nano-energy[J]. Research policy, 2016, 45(1): 97-112.

专题二：AI智能体、Skill设计与科研自动化

1.斯坦福大学Andy Hall、经济学顶刊JPE副主编David Yanagizawa-Drott实证研究自动化工作流拆解

2.AI Agent原理、部署与配置：AI Agent核心组件（规划、记忆、工具调用）、主流框架对比Codex / OpenClaw / Claude / Coze；Codex手把手安装配置教学（Mac / Windows）

3.Skill开发、改良与封装：Skill定义与科研价值、Skill标准结构（元数据、输入/输出、处理逻辑、测试用例）、开发流程、社区资源获取（ClawHub、SkillHub）、现成Skill个性化改良方法（提示词修改、后处理逻辑增加）、Skill封装

4.Skill+Python打造高效科研论文工作流

实战案例3：定制多智能体协作选题系统：自动分析最新论文、关键词趋势和CSSCI2026年选题，生成候选主题配置智能体，流水线+投票：检索→趋势→生成→评估→整合，其中评估智能体可调用多个子模型（如GPT-4、Claude、Deepseek）分别打分后取平均。

实战案例4：论文写作辅助与自动排版系统：自动化流水线，文献梳理整合 → 大纲与论文结构生成 → 论文内容填充 → 引用管理 → LaTeX或Word格式排版输出。

5.智能体时代学者数据能力重构：学者如何快速掌握计算社会科学、数据科学基础技术本质、内核，高效驾驭“人机协同”实证数据分析。

专题三：AI驱动Python科研数据自动化采集

1.数据自动化采集原理与注意事项

2.requests发送网页信息请求：GET和POST

3.网页常见返回结果解析：纯文本、HTML、JSON格式解析、文件下载

4.返回数据保存到本地路径：CSV、Excel、MySQL

5.常见反爬手段及其应对措施：IP封禁、请求头构造、Cookies获取、代理IP池使用、图片验证码

6.高效数据采集策略：多进程与多线程

实战案例5：上市公司年报PDF自动化下载

实战案例6：中国证券监督管理委员会行政处罚数据采集

实战案例7：土地市场网数据采集

实战案例8：AI自动化采集科研数据案例

专题四：机器学习、深度学习与智能体Skill封装

1.机器学习基本概念

（1)机器学习基本原理，监督学习 vs 无监督学习

（2)回归（Regression）VS分类（Classification）

（3)数据集划分及用途：训练集、测试集、验证集

（4）机器学习模型核心评价指标

a）回归分析评价指标：MAE、MSE、RMSE、R²等

b）分类模型评价指标：准确率、精确率、召回率、F1值等

2.数据准备与特征工程

（1)特征与标签

（2)使用 Pandas 构造特征矩阵 X 和目标向量 y

（3)简单缺失值处理与数据标准化/归一化

3.常见回归模型介绍与Python实现

（1)线性回归（LinearRegression）Python实现：惩罚性回归（LassoL1 正则，自动特征选择； Ridge）；弹性网络（ElasticNet，L1+L2 混合）

（2)树模型Python实现：决策树、随机森林、梯度提升（GBDT）、因果森林（causal forests）、广义随机森林（GRF）

4.深度学习基础与Python实现

神经网络基础

深度神经网络（DNN）

卷积神经网络（CNN，主要用于图像处理领域）

循环神经网络（RNN，处理序列数据如文本、音频、视频等)

5.双重机器学习原理与应用

双重机器学习原理及优势

基于EconML库实现双重机器学习(DDML)

学术图表输出:Python直接导出回归结果三线表

6.机器学习可解释性与自动化

可解释性：特征重要性（SHAP、LIME）解读

AutoML：自动模型选择与超参数调优（如AutoGluon、PyCaret）

7.现代机器学习Python实现

（1）ERNIE：基于BERT的预训练模型

（2）LangChain：自然语言处理中的链式结构模型

实战案例9：综合运用正则化回归、优化分布式梯度提升（XGBoost）和随机森林、神经网络审视因果效应

参考文献：

Hajime Shimao; , Sung Joo Kim; , Warut Khern-Am-Nuai, Maxime C. Cohen (2025) Revisiting the CEO Effect Through a Machine Learning Lens. Management Science 71(6):5396-5408.

实战案例10：卷积神经网络（CNN）等深度学习算法识别CEO年龄，仅复现其核心方法部分

方法复刻参考文献：Borgschulte, Mark, et al. "CEO stress, aging, and death." The Journal of Finance 80.6 (2025): 3401-3442.

实战案例11：构建机器学习Skill自动复现顶刊双重机器学习因果推断部分

参考文献：

王渊,李牧南,梁彦希.政策取向一致性与企业高质量绿色转型[J].管理世界,2025,41(07):108-139.

专题五：文本分析自然语言处理与智能体Skill封装

1.文本数据的预处理

a)从pdf文件（文字版/图片版）中提取文本和表格：PDF 转 txt 格式、pdfplumber 提取 PDF 表格、OCR识别PDF内容

b)中文分词：jieba、pkuseg（深度学习分词）

c)英文分词：nltk

d)文本断句：正则表达式实现文本清洗与断句

2.文本的表示方法与向量化

a）传统方法：词频统计、句频统计、TF-IDF加权、词云图

d)词嵌入技术Word2Vec

e)Embedding模型：大语言模型和检索系统的核心技术基石

3.文本相似度计算（可计算信息含量差异性等）

a）传统方法：余弦相似度、Jaccard系数

b）基于统计与浅层语义的方法：TF-IDF 余弦相似度、Word Embedding加权平均

c）深度语义相似度：Sentence Embeddings获取句子级别的向量表示

4.文本主题建模

a)LDA主题建模

b)DTM动态主题模型，追踪主题演变

c)BERTopic主题模型：超实用和强大的主题建模

5.文本情感分析

a)基于词典的方法（情感词库）

b)基于机器学习的方法：朴素贝叶斯、支持向量机、逻辑回归、随机森林等

c）基于深度学习的方法：Word2Vec预训练词向量作为输入

实战案例12：提取上市公司年报表格中主要产品名称、年报核心竞争力板块文本信息

复刻参考文献：戚聿东,孙昌玲,王化成.企业核心竞争力能够降低权益资本成本吗——基于文本分析的经验证据[J].会计研究,2021,(08):94-106.

实战案例13：文本分析识别人工智能专利：分别使用词袋法（计数词出现次数）和基于嵌入的方法（如 word2vec、BERT 等无监督方法生成向量）。测试不同的分类模型

参考文献：

Miric, Milan, Nan Jia, and Kenneth G. Huang. "Using supervised machine learning for large‐scale classification in management research: The case for identifying artificial intelligence patents." Strategic Management Journal 44.2 (2023): 491-519.

实战案例14:构建文本分析Skill，基于BERTopic量化出的不同ESG主题在A股年报中的“篇幅比例”

参考文献：

Ferjančič, Urša, et al. "Textual analysis of corporate sustainability reporting and corporate ESG scores." International Review of Financial Analysis 96 (2024): 103669.

专题六：社会网络、知识图谱与智能体Skill封装

1.社会网络分析Python核心库简介：Networkx

2.网络构建与可视化：从矩阵、DataFrame等常见数据结构中构建网络

4.网络结构分析：社区划分（CDlib 社区发现算法集合）、子群、模块度

5.网络节点分析

（1）常用指标：网络中心性（出/入度中心度、中介中心度、接近中心度、特征向量中心度）、结构洞指数、PageRank、TextRank等

（2）拓展指标：最短路距离、离心度、自我中心网络指标、网络直径、网络密度等

6.语义网络与知识图谱

7.图数据库：Neo4j核心机制和实操全解

实战案例15：国际贸易网络构建：UN Comtrade贸易数据清洗 → 网络构建→ 可视化→ 计算中心性、网络密度，识别关键节点

核心技术复现参考文献：

王群勇,王浩竹,宋润宇.气温冲击、贸易网络与经济增长[J].经济研究,2026,61(01):167-189.

实战案例16:基于GPT模型与neo4j图数据库构建人工智能专利知识图谱

核心技术复现参考文献：

周贞云,黄昭昭,邱均平.基于LLM与可视化的图数据库专利知识图谱构建及分析[J].情报杂志,1-9.

实战案例17：社会网络分析Skill开发，上市公司供应链网络构建：从供应链关系数据构建有向网络 → 计算中心性、网络密度 → 识别关键节点

参考文献：

陈雯,范茵子.企业供应链风险感知与合作关系稳定性[J].管理世界,2024,40(11):209-228.

专题七：Python大语言模型与智能体Skill封装

1.基于Transformer架构的大语言模型

a)Transformer的基本原理和结构、注意力机制；

b)编码器和解码器的结构；

c）Transformer大语言模型：Generative (decoder) models、Masked (encoder) language models

2.大语言模型FT50及中文顶刊应用总结

3.顶刊中基础大模型特点及Python调用：GPT、通义千问qwen3 模型、DeepSeek

4.ollama本地部署大模型

5.Prompt工程技术：面向Python的AI高质量输出技巧

（1）精准输出技巧：如何人机结合用好AI，最大化减少偏误和幻觉？

参考文献：Baumann, J., Röttger, P., Urman, A., Wendsjö, A., Plaza-del-Arco, F. M., Gruber, J. B., & Hovy, D. (2025). Large language model hacking: Quantifying the hidden risks of using LLMs for text annotation. arXiv.

（2）结构化输出技巧：输出Python代码可处理的数据结构

6.预训练模型的对比、训练及应用：BERT、Sentence BERT、Fin BERT、RoBERTa、DistilBERT、SciBERT、PatentSBERTa、HeBERT、ERNIE、RoBERTa

7.检索增强技术RAG及实战应用

实战案例18:结构化数据的记录连接（匹配）

大模型在不同数据集中匹配个体、地点、公司、组织、产品描述或学术论文等信息，大模型在记录连接方面表现出了巨大的潜力，以大语言模型完成大数据匹配任务：招聘数据与中国职业分类大典匹配为例进行讲解

参考文献：

张星民,张建清,刘小慧,等.外部技术断供、工作任务与企业劳动力需求结构——基于Transformer架构大数据文本挖掘的微观证据[J].数量经济技术经济研究,2025,42(09):72-93.

实战案例19:大模型工作流Skill开发，自动调用GPT模型辅助识别中国上市制造企业年报文本中的服务类型

参考文献：

Niu Y, Wu J, Jiang S, et al. The bullwhip effect in servitized manufacturers[J]. Management Science, 2025, 71(1): 1-20.

专题八：大语言模型挖掘多模态数据构建实证变量

1.实证变量构建思路：大语言模型构建实证变量

实战案例20：用ChatGPT测量企业商业复杂度

参考文献：

Bernard, D., Blankespoor, E., de Kok, T., & Toynbee, S. (2026). Using GPT to measure business complexity. The Accounting Review, 1-36.

2.大语言模型文本指标提取之情感分析

实战案例21：利用大语言模型构建AI情感指标

核心方法参考文献：Chang, Anne Yanru, et al. "AI democratization and trading inequality." Journal of Accounting Research (2026).

3.大语言模型文本指标提取之文本相似度

实战案例22：采用无监督词嵌入方法Sentence-BERT计算余弦距离

核心方法参考文献：Bao, Jiayi. "Do makerspaces affect entrepreneurship? If so, who, how, and when?." Strategic Management Journal 46.2 (2025): 502-533.

4.大语言模型图片指标提取：从图片中提取结构化数据

实战案例23：大语言模型识别图片表情信息

核心方法参考文献：Momtaz P P. CEO emotions and firm valuation in initial coin offerings: an artificial emotional intelligence approach[J]. Strategic Management Journal, 2021, 42(3): 558-578.

5.大语言模型音频指标提取：从音频中提取结构化数据

实战案例24：大语言模型识别公开音频信息

核心方法相关文献：CHENG, S.-Y. and GOLSHAN, N.M. (2025), Silent Suffering: Using Machine Learning to Measure CEO Depression. Journal of Accounting Research, 63: 689-767.

专题九：大语言模型关系抽取与因果效应

1.大语言模型构建商业网络

实战案例25：借助AI强大能力，为公司生成历史业务描述，结合先进的嵌入模型，构建出能体现企业间业务联系的时变业务网络。

参考文献：

Breitung, C., & Müller, S. (2025). Global Business Networks. Journal of Financial Economics, 166, 104007.

2.大语言模型动态生成节点重要性评估算法

实战案例26:LLM+结合进化算法分析上市公司供应链网络关键节点

参考文献：

Mao, Jinzhu, et al. "Identify critical nodes in complex network with large language models." arXiv preprint arXiv:2403.03962 (2024).

3.大语言模型+BERT+知识图谱综合应用

实战案例27:通过大模型与思维链提示法（CoT）和检索增强生成（RAG）技术，识别复杂语境中隐含关系，转化为结构化知识图谱

参考文献：Kai Li, Feng Mai, Rui Shen, Chelsea Yang, Tengfei Zhang, Dissecting Corporate Culture Using Generative AI, The Review of Financial Studies, Volume 39, Issue 1, January 2026, Pages 253–296, https://doi.org/10.1093/rfs/hhaf081.

4.基于大语言模型因果图发现与因果效应估计

实战案例28：基于因果图方法揭示特征变量与结果变量之间的因果关系

利用大语言模型(LLM)丰富知识和强大语义理解推理能力，基于贝叶斯网络，表示DAG节点及边，构建因果图结构，并进行因果图检验与因果效应估计

核心方法参考来源：张宁,林黄奕,聂小成.信用违约与机器学习：数据驱动的大语言模型因果推断方法[J].北方民族大学学报,2026,(01):158-167.

专题十：大语言模型与ABM建模

1.传统经济学理论及其固有局限性和ABM技术的优势

2.ABM定义及核心思想：主体属性、交互规则、社会环境三类ABM建模核心要素

3.ABM基本方法体系与计算社会科学关系：复杂系统、社会网络分析、文本分析、自然语言处理、大语言模型、博弈模型等与ABM区别与联系

4.ABM建模的一般方法

（1）构建环境：交互地图、数据收集器、智能体调度器

（2）构建智能体：智能体交互规则、智能体行为

（3）大语言模型和AI智能体在ABM建模中可以做什么

5.ABM清晰且系统化的操作流程：典型ABM的基本结构、设计思路、校准技术

6.大语言模型模拟社交网络中的虚假信息传播

实战案例29：分析错误信息在智能体构成的网络中传播时的演变过程

核心技术复现参考文献：Maurya, R. G., Shukla, V., Dandekar, R. A., Dandekar, R., & Panat, S. (2024). Simulating misinformation propagation in social networks using large language models. arXiv.https://doi.org/10.48550/arXiv.2511.10384

7.构建智能体进行数据信息识别

实战案例30：构建基于大语言模型的智能体对上市公司年报MD&A文本进行评估

核心技术参考文献：杜旌,陈堰轩,黎玢倩,等.自然语言处理技术能否赋能绩效评估：新测量范式探索[J].南开管理评论,1-40.

8.大语言模型模拟情景实验

实战案例31：ABM建模Skill开发，选择管理学顶刊经典情景实验，用GPT、Qwen和DeepSeek进行“硅基复制”，模拟实验并进行数据分析

Cui, Z., Li, N. & Zhou, H. A large-scale replication of scenario-based experiments in psychology and management using large language models. Nat Comput Sci 5, 627–634 (2025).

4. 课程报名

课程价格

价格：2699元（原价：2999）

可按照实际支付金额开具电子发票

价格包含：直播课程+录播回放+课程资料+课程答疑（仅开课前支付能进答疑群）

如有以下优惠，购买前找客服领取优惠券。

优惠一

普通用户转发本推文到朋友圈/皮皮侠数据会员，私聊客服可获八折优惠券。

优惠二

尊享版超级课程会员可在直播结束后免费学习此录播课程；如需直播+答疑＋录播，超级课程会员可折扣购买该课程；

扫码成为超级课程会员