大家好,我是张昕东。去年站在这里时,我还代表阿里云向大家介绍通义灵码的技术进展。如今我离职创业,正是不想错过 AI 编程的黄金时代,希望跳出大厂的局限与工作惯性,借助市面上最前沿的模型和 AI 编码工具,亲身实践 Vibe Coding,重构对 AI 编码领域的认知。
AI Coding这一话题当下热度极高,Google发布了Gemini3和Antigravity, Cursor 2.0版本也正式亮相。传统编程需手动敲击代码,过程枯燥乏味,而 Vibe Coding 倡导的是与 AI 协同开发的全新模式。今天我想结合刚出版的新书内容 —— 其中既有我此前在灵码团队开发 Agent 的经验,也包含近期在创业公司担任顾问时高频使用 Coding Agent 的实践总结,和大家深入聊聊 Vibe Coding。
本次分享将围绕四个核心部分展开:明确Vibe Coding的定义及相关误解澄清、回顾人机协作的演进历程、阐述 AI 作为编程能力放大器的核心价值,以及展望AI编码的未来趋势。
Vibe Coding 的核心理念很明确:开发者用自然语言和 AI 对话协作,AI 负责产出代码,人类则专注做三件事 ——描述需求、管理上下文、验收最终效果。
虽然我们今天聊的是 Vibe Coding,但必须承认:理想中的 Vibe Coding 还没完全实现。现在的 AI 模型还达不到架构师的水平,要落地这项技术,模块细分、编程基础筑牢、全链路可评估这几个环节一个都不能少。不过好在 AI 编码能力进步飞快,已经让我们看到了 Vibe Coding 的落地希望和清晰路径;而且在明确规范的约束下,我们已经能借助大模型,完成确定性任务的Vibe Coding实践。
AWS 的 Kiro Code 首次把Spec的理念引入IDE。
他们认为:
最近一些大厂出品的 IDE 也都在这块发力,叙事上强调严谨的生产级开发。
但是这里要申明的是,Vibe 和 Spec 从来不是对立关系。
不管 Spec 被提出之前或者之后,Vibe Coder 都已经非常强调「规范」的重要性了,毕竟再详尽的提示词,也没法涵盖一个软件最终要实现的所有细节。这个过程中,正需要标准化的流程来约束 AI 的「天马行空」,让它始终朝着目标发力。
就像人没法同时拥有青春和对青春的感悟,开发者也没法同时沉浸在「氛围编程」的随性里,又兼顾编程本身需要的严谨。把 Vibe 和 Spec 对立起来,本身就是一种误解。
总结来讲,Vibe Coding 不是随意氛围下的代码混沌,而是人机高效协同的默契心流。
我曾将人机协作总结为 Copilot、Agent、Multi-agent 三个阶段,今天我想在此基础上向前追溯、向后延伸,完整呈现其演进脉络:
Resource 阶段:AI 或搜索引擎作为被动的资源提供者,仅被动输出信息,由人类自主理解和运用。
Copilot 阶段:人类与 AI 实现高频协作,AI 提供代码补全、研发问答等辅助功能,帮助处理日常编码工作,提升研发效率。
Workflow 阶段:AI 能力进一步提升,我们不再满足于将其作为有限能力的助手,而是将软件研发的工作整体交给 AI。通过设计 Workflow 约束 AI 流程,完成如注释生成、单测生成等特定任务。
Co-Agent 阶段:当前 AI 已具备自主规划、意图识别能力,以及工具基础建设也已到位,AI 正式跨入Co-Agent 阶段。(之所以加个 Co,是因为我认为我们还远远没有达到 Agent 的时代,现在只是一个模拟智能体的时代,就像 AI 也没法完全复刻人脑的流程。现在的 AI Agent 需要人类协同合作,紧密的配合纠错,AI 还无法独立完成一个比较复杂宏大的任务,也没法自举式地迭代,以及 A2A 的紧密协作)。
Agent 阶段(未来):未来我们有很大的概率能够迈入真正的 Agent 阶段,AI 融入我们的物理世界,独立完成复杂项目,主动寻求人类的上下文帮助,人类的平均介入时间可能会在 24 小时以上。
2023 年 3 月:Github Copilot 与 GPT4 协同,将 Copilot 产品形态发挥到极致。尽管我们在 2021 年就已发布 AI 编码插件,但当时Github Copilot的多行补全功能,远超我们基于GPT2微调的行级补全模型。
2024 年 9 月:Cursor 推出 Composer 模式。此前 Devin 发布 AI 程序员视频引发行业热议,众多团队跟风开发云端编程 Agent,但因模型能力不足均未取得理想效果。而 Cursor 精准把握 Claude Sonnet 3.5 的强大编码能力,结合自研的投机解码小模型,实现了 AI 生成代码向用户工作区的稳定写入,成功引爆市场。
2025年5月,Anthropic发布Claude Code,同步推出 Claude Opus4 和 Sonnet4,大幅提升了 Agent 能力,引发行业对 IDE 与 CLI 形态的深入思考,Agent 形态也逐渐走向成熟。
从这一时间线可以看出,AI 编码的市场与商业成功,离不开对模型能力进展的深度感知。而作为开发者,我们正享受着 AI 智能体飞速发展带来的时代红利。人机协作的演进,具体还体现在编程语言、开发模式和设计模式三个维度。
从机器语言、汇编语言,到 Python、Java 这些耳熟能详的高级语言,编译器帮我们完成了硬件层到语法层的抽象。而现在,AI 正带我们进入 “问题层抽象” 的新阶段。
很多人说有第四代、第五代编程语言,但我觉得它们算不上 “新一代”。就像中国历史上的五代十国,只有北方中原迭代的势力才叫 “代”,代表着替代与革新;南方的政权只是 “国”,只是领域内的优化。放到编程语言里也是如此,如今那些所谓的 “新语言” 并没有取代上一代,更多是在编程范式、内存管理、并发逻辑等方面,针对垂直领域做了优化升级。
那什么才是真正划时代的存在?答案是 AI 大模型。黄仁勋曾在公开演讲中提出一个颠覆性观点:未来的编程语言,就叫 Human。
这个说法比 “未来编程语言是英语” 靠谱多了。一来,自然语言编程不挑语种,AI 都能懂;二来,这个 “语言” 里,人是核心参与者。
我们不妨大胆畅想未来的编程语言形态:或许会诞生一款 AI-Native 专属语言,而且已经有不少创业公司开始布局这块赛道。这类语言必然是“文档孪生”的 —— 让 AI 能以更贴合逻辑的方式,理解需求、生成代码。
我之前和 AI 试过设计这种语言,当时就觉得它需要进阶的高内聚低耦合 —— 逻辑可以写进文件名,不用塞注释里;或者代码本身不可读,变成高信息密度的原子能力,只能靠孪生文档访问。文档里会写清功能、输入输出、验证方法,一目了然。
说白了:AI 正在推动编程语言走向 “语言级SaaS化”。
现在,人和 AI 还在共同追求更高信息密度的表达方式 —— 图片、伪代码、语音等等,都能成为协作的媒介。但这还不够,我们还需要为 AI 搭建更完善的基础设施:让它能感知软件全生命周期的各类对象,把信息转化为标准化接口和可用工具。毕竟现在的 AI,恰恰缺失了在评估阶段对软件产物的感知能力。
最重要的是,未来的 AI 必须有自主能力:自己建设工具、同步数据、微调适配,朝着高级目标走,实现数据驱动的自我训练和进化。
瀑布模型:采用线性流程,从需求、分析、设计、编码、测试到运维,各阶段严格按顺序进行,强调阶段性文档产出和交接。但该模式开发周期长,需求变更成本高,已难以适配互联网行业的快速迭代需求。
敏捷模型:以用户需求为核心,倡导快速迭代、持续交付,接受需求变更,能够快速响应市场变化,目前已成为行业主流。
氛围模型(AI 时代新范式):随着 AI 的加入,研发流程正在进化为一种全新的 “氛围模型”。该模式既吸收了瀑布模型中规范文档的优势,又借助 AI 弥补了其迭代速度慢的缺陷,具备极致速度、极简团队、AI 驱动、自动化沉淀、高效沟通的核心特征:
极致速度:秉持“fail fast”理念,快速试错、快速演示 demo 并落地交付;
极简团队:团队规模更小,支持 “一人公司” 模式,降低协作损耗;
AI 驱动:利用 AI 理解需求并转化为代码实现,AI 具备更规范的编码习惯;
自动化沉淀:自动记录开发过程和经验教训,自动生成和维护相关文档;
高效沟通:避免传统组织中多层级信息传递的损耗,减少人工沟通的误解和偏差。
对于 AI 创业公司而言,速度是唯一的护城河,AI 正是 “fail fast” 理念的核心驱动力。
以 Java 经典的 SOLID 设计原则为例,这些核心原则在 AI 时代依然重要,它们是软件工程的理念准则,无论面向人类还是 AI 开发者都同样适用。
而具体的设计模式则可能发生变化,因为传统设计模式的诞生,本质上是为了照顾人脑的局限性:米勒定律指出,未经过特殊训练的人脑仅能快速处理 5-9 个信息单元,比如记手机号会拆分为 3-4-4 的模块;同时人脑注意力脆弱,需要休息和聚焦,在协作中也会产生大量损耗。但 AI 具备长上下文处理、无疲劳工作等优势,设计模式需要向 “服务 AI 理解” 转型:
代码长度:人类偏好 40-80 行的代码长度,方便在屏幕上完整查看,而 AI 可一次性阅读 100 行以上代码,但需避免超过 4000 行(否则会产生性能瓶颈);
命名规范:命名的重要性愈发凸显,需保持仓库和文档的一致性,避免 AI 使用 grep 等工具时出现召回丢失,干扰 Agent 运行;提示词的关键词可尝试用英文,减少翻译过程中的信息损失;
技术选型:建议尽量使用高版本的语言框架,AI对版本的认知较弱,比如在Java8 项目中,AI常错误补全 Java9 的 Maps.of 用法;同时,注解、AOP 等高级写法能降低代码耦合度,增强语言表现力,便于 AI 理解;
测试驱动:如果代码库的测试覆盖率较低,建议先与 AI 共同补齐测试用例,测试评估在 Agent 运行过程中至关重要;
面向模型设计:要秉持设计服务模型的意识,比如TOON格式优化了传统的JSON 表征,牺牲部分人类可读性以压缩信息,既节约 token,又提升模型理解能力。
体验过在陌生领域进行 Vibe Coding 的开发者,往往能感受到创造与调试之间的巨大落差,这仿佛是一个 “死亡螺旋”,让人难以挣脱。其核心原因的在于 AI 的局限性:
究其根本,核心问题在于 AI 的决策偏差会在Agent循环迭代与需求持续更新的过程中快速累积。如果你对代码库足够熟悉,切换到 plan 模式就能清晰看到:AI 在每一步决策中,总会出现或多或少的误判,甚至产生不少冗余操作。若放任这些问题一步步执行,整个代码库很快就会脱离掌控。
其次是“70% 困境”:非工程师可通过 AI 代码生成器快速完成 70% 的项目原型,但由于 AI 无法在独特的业务规则中情境化生成解决方案,剩余 30% 的开发需要付出指数级的努力,甚至无法完成。
METR 的调研显示:开发者原本预期使用 AI 能提升 20% 的效率,实际结果却是效率下降了 19%。
这份偏负面的调研数据,常被 AI 技术的反对者和审慎派当作佐证观点的案例。但实际上,最终结果的产生,既受限于 AI 模型自身的能力短板,也和被调研用户的使用方式不当有关。所幸的是,这两大问题都在持续改善与优化中。
- 大型项目的困境:大模型的舒适区是快速生成 DEMO,面对大型工程项目时,最大的挑战是需求演进过程中的上下文鸿沟,以及企业仓库历史演进信息的缺失,具体体现在:
隐式依赖关系:代码逻辑并非全貌,应用全链路的信息存在缺失;
历史决策积累:企业中存在大量口口相传、文档不全的内隐知识;
业务规则演进:技术扩展性难以应对自上而下、由外而内的需求变化,很多创业公司会选择用 AI 重新开发代码库,而非在原有基础上修补;
团队知识分散:协作问题从 “人与人” 延伸至 “人与 AI”“AI 与 AI”,需要建立全新的协作契约。
- AI 本身的缺陷:
极度自信的操作:不由分说地修改代码,缺少审慎思考;目前 Anthropic 从 Claude3.7 升级到 Claude4.0,核心优化之一就是抑制模型 “立马修改代码” 的冲动;工具层面,PLAN+ACT 的分阶段模式、各类 SPEC 框架也在引导 AI 做好前期设计和调研;
过度设计的诱惑:AI 学习了大量最佳实践和编程规范,倾向于提供一整套标准解法,即使用户仅需要简单功能(如想要简单开关,AI 可能设计出带遥控器、定时器的智能开关系统);同时,需求描述的不确定性会引发 AI 的 “设计恐慌”,使其偏向复杂方案;
加速熵增的推手:AI 在大型仓库中难以把控全局复杂度,解决一个问题时可能重复开发或影响其他功能,加剧软件熵增,需要人类在架构层面把控 AI 改动的影响面;
脱离掌控的测试:AI 生成测试用例非常便捷,但如果某个缺陷长期未解决,AI 会生成大量无效测试用例,干扰后续的上下文理解和改动。
费曼的那句名言 ——“What I cannot create, I do not understand”,在大模型时代被反复引用。如果说有什么速效解药能冲破 AI 编程的 “死亡螺旋”,我坚信,答案就是开发者自身的 Coding 能力。
在 AI 时代,开发者需要具备新的核心素养:
扎实的全局架构和业务能力:AI 仅能在代码逻辑层提供建议,技术选型、模块划分等仍需人类基于业务背景决策,这也是 AI 无法完成大型需求、易留下技术债务的关键原因。
强大的质量把控和验证能力:目前模型对软件产物和代码之间的关联感知较弱,需要人类借助日志、版本控制等工具,检查 AI 输出的计划和代码,掌控风险、及时回滚,与 AI 共同定位和解决问题。
高效的上下文工程组织能力:上下文工程区别于提示词工程,核心是动态组装和编排模型输入。上下文管理存在三种境界:一是知道 AI 需要什么并能精准提供;二是知道 AI 需要什么但不知道如何提供(可借助Agentic Search等工具精准召回关联内容);三是既不知道 AI 需要什么,AI 也无法搜索(需构造探索和校验工具链,与 AI 共同透析问题本质)。
理解和管理 AI 的能力:不同模型和工具各有优劣,比如 Claude 擅长框架策略制定和实施,Codex在细节修改上更谨慎,Gemini CLI适合调研和计划。开发者需要深刻理解工具和模型的现阶段能力,选择适配的工具完成任务。
经过对数十种 AI 编码工具的体验,我目前的核心配置如下:
核心编码工具:Claude Code(流畅度高、配套体系完善,开 MAX 会员可覆盖大部分用量);
辅助编码工具:Cursor(TAB 功能优秀)、Qoder(支持任务模式、DeepWiki,有免费额度)、VSCode(基础功能稳定);
特色工具:Warp(融合 IDE 与 CLI,命令行场景表现突出);
核心配置:
Subagent:Gemini Cli(深度调研)、Kiro-workflow(SPEC 模式)、ui-designer(UI 设计);
Slash Command:think/thinkHarder/ultrathink(深度思考)、tutorial(教程生成)、commit(代码提交与评审)、review(代码评审);
MCP:Chrome Dev(浏览器调试)、Playwright(自动化测试);
Hooks:after-edit(格式检查)、stop(任务通知);
Skill:ZEN、context7(上下文优化)、webpage-testing(网页测试)、using-git-worktree(Git 工作区管理)。
编码工具配置需因人而异、因业务场景而异,开发者可根据自身需求灵活调整。
及时止损:当 AI 多次修复同一缺陷无果时,要果断回滚重来,分析问题、总结经验,避免无效调试污染上下文。
精简上下文:大模型在 100k 以内的上下文表现更优,需利用压缩、subagent、skill 等机制卸载冗余信息,减少运行噪声。
重视版本控制与文档:做好功能 / 任务级别的版本控制,及时压缩上下文、保持整洁;同时持久化记录开发过程中的上下文、用户需求、思考路径和修改记录,生成演进文档。
让 AI 创造工具:学会引导 AI 将通用流程、业务模型沉淀为 subagent 或 skill,提升编码流程的模块化水平;同时发挥 AI 的主观能动性,让其通过网络搜索调研、头脑风暴生成计划方案,并通过 question-ask 机制查漏补缺。
过去几年,AI 编码取得了飞速发展:SWE BENCH 的解决率从 40% 提升至 70%,Claude Sonnet 4.5 可连续工作 30 小时,全球超过 90% 的开发者使用 AI 编码工具,“提示词为源代码,大模型为编译器” 成为行业共识。这正如《诗经・卷耳》中 “采采卷耳,不盈顷筐” 所描述的,我们在短时间内取得了显著进展。
但 Vibe Coding 仍未达到终态,正如 “陟彼高冈,我马玄黄” 所形容的,我们虽已登上高地,但仍面临诸多挑战:Devin 转向推广 IDE 并强调人工介入,Cursor 构建云端异步 Agent 能力,Cursor由本地IDE体验延伸到远端 Agent,不喜欢增加状态的Claude Code也提供了人类做代码回滚(Rewind)的入口,而不是引导用户 Vibe 迭代----这些现象表明 AI 尚未达到架构师水平,Human is still in the loop,行业正从 “Agent 模式” 向 “Workflow of Agents 模式” 回归,距离完全自主的 Agent 阶段仍有差距。目前的阶段更像是从 “需要了解内燃机原理才能驾驶” 进化到 “懂得刹车转向即可驾驶”,尚未达到 “自动挡” 水平。
上下文管理成为核心:模型层与应用层都在聚焦上下文管理:模型层通过上下文折叠、压缩复用引用信息等技术,动态优化上下文处理;应用层通过 subagent(委派独立任务)、skill(抽象工具与业务能力,按需加载)、MEMORY(浓缩核心信息,按需召回)、MCP(包装外部接口为 API 协议)等机制,实现上下文卸载与精准匹配。
工具开发门槛降低:过去需要手动编写脚本工具辅助调用,如今可通过自然语言描述快速构建 Agent 功能,未来 Agent 将基于需求和数据实现自举式迭代。正如图灵奖得主 Alan Kay 所设想的,“软件未来应该像文档一样可以随时编辑”,未来工具类软件的构建成本将大幅降低。
真实世界感知能力升级:AI 目前难以精准评估 Coding 产物与需求的符合度,未来需要更强大的评估工具,覆盖移动端真机调试、机器人物理世界运行等复杂场景;同时,要让 AI 理解产品、共情用户,从源头判断需求合理性,优化技术架构。OpenAI 曾表示:“训练 AI 解决某个任务的容易程度,与该任务的可验证性成正比。所有既可能解决又容易验证的任务,都将被 AI 解决。” 我们正通过训练、benchmark 建设等方式,提升 AI 的评估能力。
从 ChatGPT 时代开始,AI “通过图灵测试” 的新闻屡见不鲜,但图灵测试存在局限性,其主观评判标准鼓励欺骗性设计,忽略了 AI 的独特价值。相比之下,“经济图灵测试” 更具意义,它聚焦于 AI 创造的真实价值。
哲学家维特根斯坦曾说:“语言的界限就是世界的界限,不可说的需保持沉默。” 但 AI 是否需要 “沉默”?从技术上看,我们可通过构造训练数据、设定特殊 token 等方式实现,但从产品角度,这可能导致用户误解为 bug。这引发我们思考:我们真的需要 AI 像人类一样吗?实则不然,AI 的核心价值在于其超越人类的特质 —— 超强记忆、无疲劳工作、多维度并行、客观分析等。
软件工程的本质从来不是代码,而是人类对现实问题的解决方案的精确探索。未来,不会使用 AI 的开发者将被淘汰,但 AI 不会取代人类编程。我们正处于软件工程的 “像法时代”,经历着颠覆性的认知和实践转变,既要掌握计算机科学与软件工程的基本功,也要保持编码和产品品味,积极拥抱新科技。
“清溪奔快,不管青山碍”,高效高质量地创造软件应用是我们共同的追求。让我们享受大模型带来的时代红利,共同探索 Vibe Coding 的无限可能。