课程简介:
大语言模型(LLMs)正在颠覆传统的数据分析方式。从自动生成代码、辅助建模到自然语言报告撰写,LLM + 数据分析正成为新一代智能分析范式。
本课程围绕“如何利用大模型在数据分析场景下实现自动编程”,融合统计分析与机器学习算法,系统讲解如何借助 ChatGPT、Claude、文心一言等主流模型,自动完成数据清洗、建模、可视化与报告生成等任务,最终实现从业务问题到智能洞察的闭环。
通过9周系统学习,帮助学员掌握Python或R语言下的大模型辅助分析能力,具备独立构建“对话式数据分析智能体”的能力,真正提升数据思维和AI应用能力。
课程大纲(共9周):
第1周:自动编程与AI数据分析入门
了解大语言模型在数据分析中的作用与优势
自动编程应用场景概览与工具准备
配置分析环境(Python + Jupyter / R + RStudio)
使用大模型自动生成数据读取与预处理代码
第2周:数据预处理与探索性分析自动化(EDA)
自动识别数据结构、变量类型、缺失值与异常值
利用Prompt设计自动完成数据清洗和结构审查
自动生成数据摘要与基本统计图
实战案例:用户行为数据的快速洞察与清洗流程
第3周:特征工程与变量处理
分类变量编码、数值变量归一化/标准化
时间变量、文本变量的自动特征提取策略
借助LLM构建新变量、识别冗余变量
实战案例:客户订单数据的特征构造与变量降维
第4周:回归建模与自动代码生成
回归模型讲解:线性回归、岭回归、Lasso 回归
利用大模型自动构建训练流程与预测逻辑
自动评估模型效果(R²、MSE、残差图等)
实战案例:房价预测自动建模
第5周:分类模型与评估解释自动化
分类算法概览:逻辑回归、决策树、随机森林、SVM
自动化生成训练、测试、交叉验证与混淆矩阵分析
使用LLM解释分类模型结果并生成结论摘要
实战案例:用户流失预测、信用风险评估
第6周:无监督学习与聚类分析
聚类算法:KMeans、层次聚类、DBSCAN
降维算法:PCA、t-SNE 的自动实现与可视化输出
LLM自动推荐聚类数、生成聚类标签解释
实战案例:电商用户分群、市场细分建模
第7周:数据可视化与报告自动生成
使用LLM生成多种图表(条形图、热力图、趋势图等)
自动调整图形样式与注释内容
自动撰写Markdown格式分析报告、摘要与结论段落
实战案例:销售数据可视化仪表盘构建
第8周:模型集成与大模型协同优化
理解集成模型原理:Bagging、Boosting、Stacking
构建集成模型(随机森林、XGBoost、LightGBM)
自动比较模型效果并生成推荐报告
实战案例:银行客户信用评分建模
第9周:基于Agent的自动数据分析项目实践
将数据分析融入AI Agent,构建自动数据分析智能体,解放生产力
实现从用户输入 → 自动清洗 → 建模 → 生成图表 → 输出报告的完整交互链
授课时间:
课程将于2026年02月27开课,课程持续时间大约为11周。
讲师介绍:
Tracy
资深人工智能科学家, 多年数据分析与人工智能算法开发的行业经验,在计算机视觉、语音处理、自然语言处理和强化学习等领域上都有着丰富的项目实战经验。曾主导开发众多项目与产品,包括公安室内定位系统、公安声纹鉴定系统、内镜医学图像增强系统、中国移动客户满意度分析、广州地铁客流分析、语音风格迁移、垃圾智能分类综合系统等等。
适用人群:
数据分析师 / 商业分析师 / 数据科学从业者
期望提升 AI 辅助工作效率的企业技术人员
高校高年级学生 / 研究生
对大模型自动编程与智能化分析感兴趣的开发者或决策者
学习目标:
掌握主流大语言模型的使用方法(API调用 + Prompt设计)
熟练自动化完成数据清洗、建模、可视化等分析流程
理解统计分析与机器学习算法的基本原理与场景匹配
能构建自己的“对话式数据分析助手”(Agent)
独立完成一个基于大模型的自动分析项目
语言工具与技术栈:
工具类型 | 技术名称 |
编程语言 | Python+ R |
AI模型 | Qwen/ChatGLM / 文心一言 / Deepseek 等 |
库与框架 | Pandas、Scikit-learn、LangChain、Plotly、ggplot2 |
Agent平台 | 百炼/千帆/腾讯原器/扣子等 |
课程特色:
案例驱动教学:全程配套数据集与分析任务,边学边练
大模型集成实战:结合主流LLM,模拟真实分析流程
Prompt工程系统讲解:设计高质量提示词,提升LLM表现
多工具适配:支持Python、R双语言与主流可视化工具
项目产出导向:完成可落地的自动分析系统原型与报告