Anthropic 让16 个 Claude 智能体自主并行工作,在两周内、花费2万美元,从零写出10万行代码,构建出一个能编译 Linux 6.9 内核的 C 编译器。这不仅是技术突破,更是对 AI 编程能力的极限压力测试。实验规模有多疯狂?
| |
|---|
| 智能体数量 | |
| 工作时长 | |
| API 成本 | |
| 代码量 | |
| 最终成果 | 能编译 Linux 6.9(x86/ARM/RISC-V) |
| 测试通过率 | |
这不是科幻,这是 2026 年 2 月已经发生的事情。作者 Nicholas Carlini 说:"我没想到这在 2026 年初如此接近可能。"
什么是"智能体团队"?
传统编程需要你一步步指导 AI:写代码、审查、修改、再审查……直到完成。而"智能体团队"让 16 个 Claude 同时工作,有的修 bug,有的写文档,有的优化性能,有的重构代码。关键是它们自主协作,无需人工干预,像一个真正的开发团队。让 Claude 永远工作的"无限循环"
现有 AI 编程工具都需要人类一直在场,但这个实验的核心是一个简单的循环:Claude 完成一个任务后立即接手下一个,没有休息,没有等待,直到项目完成。作者笑称有一次 Claude 意外执行pkill -9 bash杀死了自己,结束了循环。#!/bin/bashwhile true; do COMMIT=$(git rev-parse --short=6 HEAD) LOGFILE="agent_logs/agent_${COMMIT}.log" claude --dangerously-skip-permissions \ -p "$(cat AGENT_PROMPT.md)" \ --model claude-opus-X-Y &> "$LOGFILE"done
怎么防止 16 个 Claude 抢同一份工作?
16 个智能体同时工作不会改同一行代码吗?作者设计了任务锁定系统:每个 Claude 通过写入文件来锁定任务(如current_tasks/parse_if_statement.txt),如果两个智能体尝试声明同一任务,Git 的同步会强制第二个选择其他任务。执行时从 upstream 拉取最新代码、合并其他智能体的更改、推送自己的更改并移除锁定。合并冲突很频繁,但 Claude 足够聪明能解决它们,完成后在新容器中启动新的会话,循环继续。最大的挑战:让 AI 知道自己做得对不对
这是整个实验最核心的难点:没有人类盯着,AI 怎么知道写得对不对?1、极高质量的测试是核心。Claude 会自主解决任何问题,所以测试必须几乎完美,否则它会解决错误的问题。作者花大量精力找高质量编译器测试套件、为开源项目写验证器、观察 Claude 犯错并设计新测试。项目后期 Claude 经常"修好一个 bug,弄坏三个功能",作者于是搭建了持续集成管道,强制要求新代码不能破坏旧功能。2、为 Claude 设计的测试环境。测试不是给人看的,是给 AI 看的。传统测试会打印数千行输出污染上下文窗口,正确做法是只打印几行关键信息,详细日志写到文件里。日志格式要易于机器处理,比如ERROR: 无法分配 2.3 GiB 内存 - file.py:113,让 Claude 可以用grep ERROR快速找到问题。
另一个问题是时间盲区。Claude 不知道时间,会花几小时跑测试而不是写代码。解决方法是默认使用--fast模式只跑 1%-10% 随机测试,每个智能体的测试是确定的但不同智能体覆盖不同文件,既保证全面测试又快速迭代。3、并行化的艺术:用 GCC 作为"预言机",面对几百个独立测试时并行化很简单,每个智能体挑不同的失败测试修就行。但编译 Linux 内核是一个巨大任务,16 个智能体会修同一个 bug 并互相覆盖。天才方案是用 GCC 作为"标准答案预言机":大部分文件用 GCC 编译,少部分用 Claude 的编译器,如果能编译说明 Claude 的部分没问题,如果崩溃就进一步缩小范围重新编译。这让每个智能体可以并行修复不同文件的 bug,直到 Claude 的编译器能编译所有文件。
最终成果:一个能用的编译器
成功之处:编译器可以编译 Linux 6.9(x86、ARM、RISC-V),可以运行 QEMU、FFmpeg、SQLite、PostgreSQL、Redis,通过 GCC 折磨测试 99% 通过率,终极证明是能编译并运行 Doom。
仍有限制:代码效率低,全部优化的代码还不如 GCC 全不优化的效率;缺少 16 位支持,x86 启动需要调用 GCC;汇编器和链接器还有些 bug;能编译很多项目但不是全部;Rust 代码合理但达不到专家水平。
作者坦言:"生成的编译器几乎达到了 Opus 能力的极限。我尝试修复几个限制但没有完全成功,新功能经常破坏现有功能。"作为一个特别具有挑战性的例子,Opus 无法实现 16 位实模式启动所需的代码生成器,最后超过 60kb 远超 Linux 的 32k 限制,Claude 只能在这个阶段作弊调用 GCC。这个实验告诉我们什么?
现在:AI 可以自主完成大型项目,成本远低于人工开发(2 万美元 vs 整个团队),并行化大幅提升效率。未来 1-2 年:AI 编程质量接近专家水平,需要新的测试和验证方法,人工角色转向监督和架构设计。未来 5 年+:完全自主软件开发成为常态,新的安全挑战和治理框架,开发者角色的根本转变。延伸阅读
编译器源代码:https://github.com/anthropics/claudes-c-compiler
GCC 折磨测试套件:https://gcc.gnu.org/onlinedocs/gccint/Torture-Tests.html
Anthropic 工程博客:https://www.anthropic.com/engineering
原作者:Nicholas Carlini(Safeguards 团队研究员)