想搞AI开发,上网一搜学习路线——线性代数、概率论、机器学习、深度学习、PyTorch、CUDA……
没看完,人已经放弃了。
说实话,这个路线没错,但它针对的是"我要从零造一个AI"的人。如果你只是想用AI做应用——调API、搭RAG、写Agent——那上面80%的内容你根本用不上。
这篇就是给你看的。最短路径,不绕路,8周出活。
01 先搞清你的位置
AI应用开发是个什么概念?不是你训练一个模型,而是你用好现成的模型去做产品。
举几个例子:
- 搭一个智能客服,让它能查订单、退换货、回答常见问题
- 做一个合同审核助手,阅读PDF合同,提取关键条款,给出风险提示
- 写一个代码审查Agent,自动review PR,标记潜在bug
这些项目的共同点:模型是现成的(GPT-4o、Claude、国内大模型),你的工作是把模型跟业务场景连接起来。
所以不需要你懂CUDA、不需要你训练模型、不需要你刷300道LeetCode。
那需要什么?实话实说,就5块:
02 最短路径:5块核心
1. Python工程能力
不是"会写循环",是要能干活。
# 这是基础
async def call_llm(prompt: str) -> str:
async with httpx.AsyncClient() as client:
response = await client.post(
"https://api.openai.com/v1/chat/completions",
headers={"Authorization": f"Bearer {API_KEY}"},
json={"model": "gpt-4o", "messages": [{"role": "user", "content": prompt}]}
)
return response.json()["choices"][0]["message"]["content"]
这段代码里包含了三个你马上就得会的点:异步编程(async/await)、类型注解(: str)、HTTP调用(httpx)。
还有隐藏技能:Pydantic。Agent框架大量用它做数据校验和结构化输出,不懂它,看LangChain源码会一脸懵。
2. LLM API调用
你以为调API就是POST一条消息等返回?细节不少:
# 不同任务用不同的 temperature
# 工具调用用低值,创意生成用高值
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "用中文写一首关于AI的短诗"}],
temperature=0.9, # 创意任务
max_tokens=200,
stream=True, # 生产环境必备
)
你至少需要理解:
- temperature / top_p 不同值的含义
3. LangChain / LlamaIndex 二选一
别两个都学。 选一个精通,了解另一个的适用场景就够了。
建议路径:先不用框架,手写一个最小ReAct循环,理解Agent的底层逻辑,再去看LangChain怎么封装的——你会醍醐灌顶。
LangChain重点学 LCEL(LangChain Expression Language),这是它现在的主力API。
4. RAG全链路
小厂的AI项目,十个有八个涉及RAG。RAG的完整链路:
文档解析 → 分块 → Embedding → 向量检索 → Rerank → 生成 + 引用来源
每个环节都有坑:
# 分块不是简单按字数切
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
chunk_size=500,
chunk_overlap=50,
separators=["\n\n", "\n", "。", "!", "?", " ", ""],
)
chunks = splitter.split_text(document)
真实场景里,PDF有页眉页脚、表格会被车裂、扫描件要OCR——光看教程不够,自己从头搭一遍才能踩到这些坑。
5. Function Calling / Tool Use
这是Agent跟普通Chatbot的本质区别。Agent能调用工具,对外部世界产生影响。
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "获取指定城市的天气信息",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "城市名"}
},
"required": ["city"]
}
}
}
]
# 模型决定是否调用、填什么参数
# 你拿到结果再还给模型继续推理
工具描述的写法直接影响模型能不能正确调用。写太笼统,模型不会调用;写太死板,参数填不对。
03 3个必补模块
上面5块是基础,下面3块是从demo走向生产的关键分水岭。
6. 多模态与结构化输出
2026年的Agent岗位,多模态已经从加分项变成标配。PDF扫描件、票据、报表图片——这是RAG项目的日常。
# 用 GPT-4o 看懂图片里的内容
response = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "提取这张发票的总金额和开票日期"},
{"type": "image_url", "image_url": {"url": "https://..."}}
]
}]
)
结构化输出用 instructor 库(基于Pydantic)或模型原生的 response_format,让模型返回格式稳定的JSON,而不是自由文本。
7. Agent记忆与状态管理
只会调API不懂记忆管理,做出来的Agent像个失忆的客服——你说过的,它转头就不记得了。
短期记忆:上下文超了怎么办?不是简单滑动窗口,而是要智能压缩——超过阈值就把早前的对话摘要化。
长期记忆:用户画像、历史偏好存入向量库,下次触发时检索。够用就行,别贪多——记忆不是越多越好,还要做遗忘机制。
8. 可观测性与评估
这是面试官最爱问、教程里基本不提的东西。
"你做的RAG系统好不好?"——不知道。
线上跑了一个Agent,某一步突然不给力——排查工具在哪?
必会的:
- RAGAS框架:量化评估忠实度、答案相关性、上下文召回率
- LangFuse(开源):可视化Agent每一步的思考和工具调用,排错全靠它
- 成本监控:一次对话花了多少钱,embedding缓存策略
04 推荐Timeline:8周出活
不废话,按学习周数来:
第1周:Python工程基础
- async/await → 能写出异步HTTP调用
- Pydantic → 能做数据校验和结构化输出
- 结果:能用代码调通一个LLM API
第2周:LLM API + 最小ReAct
- 理解temperature/streaming/结构化输出
- 手写一个ReAct循环,不用任何框架
- 结果:你有了一个"能思考""能调用工具"的最小Agent
第3-4周:第一个RAG项目
- 选一个垂直领域(法律合同/医疗问答/文档审核)
- 走完RAG全链路:文档→分块→向量化→检索→生成
- 处理真实脏数据,不是教程里的"干净demo"
- 结果:可演示的RAG问答系统 + 踩坑记录
第5-6周:Agent进阶项目
- 接入记忆系统(短期压缩+长期用户画像)
- 实现多工具调用 + 工具错误处理
- 接入LangFuse做轨迹追踪
- 结果:带记忆、多工具、有监控面板的对话Agent
第7-8周:整理项目 + 准备面试
- 代码放GitHub,README认真写
- 复盘每个环节踩了什么坑、怎么解决
- 梳理技术栈速查表,能说出来龙去脉
8周,两个项目,一个深RAG,一个深Agent规划+记忆。够用了。
05 不需要学的
省时间指南,直接抄:
| ❌ 不需要 |
原因 |
| 训练模型 |
现成的API够用,了解LoRA概念就行 |
| CUDA / 分布式训练 |
那是MLE的事,不是应用层开发 |
| LeetCode刷满 |
小厂算法题不难,时间花在项目上划算 |
| 所有Agent框架学一遍 |
LangChain / LlamaIndex 二选一精通 |
小结
AI应用开发这事,说白了就是用现成的模型去做产品。你的价值不在"模型训得多好",而在业务理解、工程实现、踩坑经验。
学得快的人,不是智商高,是知道什么不用学。
关注「Bug与灵光」,持续输出AI应用开发实战内容。觉得有用,点个在看,分享给需要的人。