近日,Anthropic 安全团队研究员尼古拉斯·卡利尼(Nicholas Carlini)公布了一项令人瞩目的实验成果:仅用两周时间,16 个 Claude Opus 4.6 大模型智能体协作,从零开始开发出一个能编译 Linux 内核的 C 语言编译器。

这项实验不仅展示了当前大模型在复杂软件工程中的潜力,也暴露出其在可维护性、代码质量与系统级开发上的明显短板。
两周、2 万美元、10 万行 Rust 代码
在为期 14 天的实验中,16 个 Claude Opus 4.6 智能体并行工作,累计进行了近 2000 次编码会话,共生成约 10 万行 Rust 代码。整个过程通过 Anthropic 新推出的“智能体团队”功能实现 —— 模型可在半自主状态下协作,无需人工逐行干预。
最终产物是一个功能完整的 C 编译器,成功编译出可在 x86、ARM 和 RISC-V 三大主流架构上启动的 Linux 6.9 内核。项目总 API 调用成本约为 2 万美元。
值得一提的是,Anthropic 同期发布了 Claude Opus 4.6,支持高达 100 万 token 的上下文窗口,为此次长周期、高复杂度任务提供了基础支撑。
无中央调度,靠 Git 自治协作
实验采用去中心化架构:每个智能体运行在独立的 Docker 容器中,共享一个 Git 仓库。它们通过创建文件锁自主分配任务,提交代码后自动合并。最令人震惊的是整个流程没有“主控智能体”,所有代码冲突均由模型自行解决。
这种“多智能体 + Git 协作”的模式,被视为迈向自主软件工厂的重要一步。
能力惊艳,但短板同样明显
该编译器已开源至 GitHub,并展现出不俗的通用性:
成功编译 PostgreSQL、SQLite、Redis、FFmpeg、QEMU 等大型开源项目;
在 GCC torture 测试套件中通过率达 99%;
甚至能跑起经典游戏《毁灭战士》(Doom)。
然而,问题也随之浮现:
缺少 16 位 x86 后端:无法完成 Linux 引导阶段所需的实模式编译,仍需依赖 GCC;
自研工具链不成熟:汇编器和链接器存在 bug;
生成代码效率低:即便开启优化,性能仍远逊于 GCC;
代码质量下滑:当项目规模突破 10 万行后,修改一处常导致其他功能崩溃,模型难以维持整体一致性。
卡利尼坦言:“模型已经达到了它能管理代码库连贯性的极限。”
其实没那么简单
尽管 Anthropic 将该项目称为“洁净室”开发(即运行时无网络访问),但这一说法引发争议。毕竟,Claude 的训练数据包含大量公开代码,其中就包括 GCC 和 Clang 的源码,相当于站在巨人的肩膀上“重新发明轮子”。
此外,2 万美元的成本仅指 API 调用费用,未计入模型训练开销和人力投入。实际上,真正的工程难点不在写代码,而在搭建支撑环境。
卡利尼为此专门设计了一整套适配大模型特性的 CI/CD 系统:
限制测试日志输出,避免填满上下文窗口;
引入“快速测试模式”,仅抽样验证 1%~10% 的用例(因模型没有时间概念);
当多个智能体卡在同一个内核 bug 上时,临时调用 GCC 并行推进任务。
这些工程技巧,或许比编译器本身更具借鉴价值。
意义重大,但安全隐忧不容忽视
卡利尼对结果既惊喜又忧虑。他坦言:“我没想到在 2026 年初,AI 就能做出一个能跑 Linux 的多架构编译器。”要知道,一年前这几乎是天方夜谭。
但他也警告:如果程序员开始部署自己从未亲手审查过的 AI 生成代码,将带来严重的安全隐患。作为渗透测试专家,他深知“黑盒代码”在关键系统中的风险。
这次实验并非证明 AI 已能完全替代程序员,而是人类负责设计框架、制定规则、构建验证机制,AI 负责填充细节、执行重复劳动。
未来,真正高效的 AI 编程或许不在于模型有多聪明,而在于我们能否为它打造一套可靠的操作系统。
附注:该项目代码已开源,感兴趣的技术爱好者可在 GitHub 搜索 “Anthropic compiler agent” 查看完整实现。
https://github.com/anthropics/claudes-c-compiler