当前位置：首页>Linux>16个Claude同时工作:从零构建Linux编译器的疯狂实验

16个Claude同时工作:从零构建Linux编译器的疯狂实验

2026-02-07 08:15:52

Anthropic 让16 个 Claude 智能体自主并行工作，在两周内、花费2万美元，从零写出10万行代码，构建出一个能编译 Linux 6.9 内核的 C 编译器。这不仅是技术突破，更是对 AI 编程能力的极限压力测试。

实验规模有多疯狂？

维度	数据
智能体数量	16 个 Claude 同时工作
工作时长	两周，近 2,000 次会话
API 成本	20,000 美元
代码量	10 万行 Rust 代码
最终成果	能编译 Linux 6.9（x86/ARM/RISC-V）
测试通过率	GCC 折磨测试 99%

这不是科幻，这是 2026 年 2 月已经发生的事情。作者 Nicholas Carlini 说："我没想到这在 2026 年初如此接近可能。"

什么是"智能体团队"？

传统编程需要你一步步指导 AI：写代码、审查、修改、再审查……直到完成。而"智能体团队"让 16 个 Claude 同时工作，有的修 bug，有的写文档，有的优化性能，有的重构代码。关键是它们自主协作，无需人工干预，像一个真正的开发团队。

让 Claude 永远工作的"无限循环"

现有 AI 编程工具都需要人类一直在场，但这个实验的核心是一个简单的循环：Claude 完成一个任务后立即接手下一个，没有休息，没有等待，直到项目完成。作者笑称有一次 Claude 意外执行pkill -9 bash杀死了自己，结束了循环。

#!/bin/bashwhile true; do    COMMIT=$(git rev-parse --short=6 HEAD)    LOGFILE="agent_logs/agent_${COMMIT}.log"    claude --dangerously-skip-permissions \           -p "$(cat AGENT_PROMPT.md)" \           --model claude-opus-X-Y &> "$LOGFILE"done

怎么防止 16 个 Claude 抢同一份工作？

16 个智能体同时工作不会改同一行代码吗？作者设计了任务锁定系统：每个 Claude 通过写入文件来锁定任务（如current_tasks/parse_if_statement.txt），如果两个智能体尝试声明同一任务，Git 的同步会强制第二个选择其他任务。执行时从 upstream 拉取最新代码、合并其他智能体的更改、推送自己的更改并移除锁定。合并冲突很频繁，但 Claude 足够聪明能解决它们，完成后在新容器中启动新的会话，循环继续。

最大的挑战：让 AI 知道自己做得对不对

这是整个实验最核心的难点：没有人类盯着，AI 怎么知道写得对不对？

1、极高质量的测试是核心。Claude 会自主解决任何问题，所以测试必须几乎完美，否则它会解决错误的问题。作者花大量精力找高质量编译器测试套件、为开源项目写验证器、观察 Claude 犯错并设计新测试。项目后期 Claude 经常"修好一个 bug，弄坏三个功能"，作者于是搭建了持续集成管道，强制要求新代码不能破坏旧功能。

2、为 Claude 设计的测试环境。测试不是给人看的，是给 AI 看的。传统测试会打印数千行输出污染上下文窗口，正确做法是只打印几行关键信息，详细日志写到文件里。日志格式要易于机器处理，比如ERROR: 无法分配 2.3 GiB 内存 - file.py:113，让 Claude 可以用grep ERROR快速找到问题。

另一个问题是时间盲区。Claude 不知道时间，会花几小时跑测试而不是写代码。解决方法是默认使用--fast模式只跑 1%-10% 随机测试，每个智能体的测试是确定的但不同智能体覆盖不同文件，既保证全面测试又快速迭代。

3、并行化的艺术：用 GCC 作为"预言机"，面对几百个独立测试时并行化很简单，每个智能体挑不同的失败测试修就行。但编译 Linux 内核是一个巨大任务，16 个智能体会修同一个 bug 并互相覆盖。天才方案是用 GCC 作为"标准答案预言机"：大部分文件用 GCC 编译，少部分用 Claude 的编译器，如果能编译说明 Claude 的部分没问题，如果崩溃就进一步缩小范围重新编译。这让每个智能体可以并行修复不同文件的 bug，直到 Claude 的编译器能编译所有文件。

最终成果：一个能用的编译器

成功之处：编译器可以编译 Linux 6.9（x86、ARM、RISC-V），可以运行 QEMU、FFmpeg、SQLite、PostgreSQL、Redis，通过 GCC 折磨测试 99% 通过率，终极证明是能编译并运行 Doom。

仍有限制：代码效率低，全部优化的代码还不如 GCC 全不优化的效率；缺少 16 位支持，x86 启动需要调用 GCC；汇编器和链接器还有些 bug；能编译很多项目但不是全部；Rust 代码合理但达不到专家水平。

作者坦言："生成的编译器几乎达到了 Opus 能力的极限。我尝试修复几个限制但没有完全成功，新功能经常破坏现有功能。"作为一个特别具有挑战性的例子，Opus 无法实现 16 位实模式启动所需的代码生成器，最后超过 60kb 远超 Linux 的 32k 限制，Claude 只能在这个阶段作弊调用 GCC。

这个实验告诉我们什么？

现在：AI 可以自主完成大型项目，成本远低于人工开发（2 万美元 vs 整个团队），并行化大幅提升效率。

未来 1-2 年：AI 编程质量接近专家水平，需要新的测试和验证方法，人工角色转向监督和架构设计。

未来 5 年+：完全自主软件开发成为常态，新的安全挑战和治理框架，开发者角色的根本转变。

16个Claude同时工作:从零构建Linux编译器的疯狂实验

实验规模有多疯狂？

这不是科幻，这是 2026 年 2 月已经发生的事情。作者 Nicholas Carlini 说："我没想到这在 2026 年初如此接近可能。"

什么是"智能体团队"？

让 Claude 永远工作的"无限循环"

怎么防止 16 个 Claude 抢同一份工作？

最大的挑战：让 AI 知道自己做得对不对

最终成果：一个能用的编译器

成功之处：编译器可以编译 Linux 6.9（x86、ARM、RISC-V），可以运行 QEMU、FFmpeg、SQLite、PostgreSQL、Redis，通过 GCC 折磨测试 99% 通过率，终极证明是能编译并运行 Doom。

仍有限制：代码效率低，全部优化的代码还不如 GCC 全不优化的效率；缺少 16 位支持，x86 启动需要调用 GCC；汇编器和链接器还有些 bug；能编译很多项目但不是全部；Rust 代码合理但达不到专家水平。

这个实验告诉我们什么？

延伸阅读

最新文章

热门文章

随机文章

16个Claude同时工作:从零构建Linux编译器的疯狂实验

实验规模有多疯狂？

这不是科幻，这是 2026 年 2 月已经发生的事情。作者 Nicholas Carlini 说："我没想到这在 2026 年初如此接近可能。"

什么是"智能体团队"？

让 Claude 永远工作的"无限循环"

怎么防止 16 个 Claude 抢同一份工作？

最大的挑战：让 AI 知道自己做得对不对

最终成果：一个能用的编译器

成功之处：编译器可以编译 Linux 6.9（x86、ARM、RISC-V），可以运行 QEMU、FFmpeg、SQLite、PostgreSQL、Redis，通过 GCC 折磨测试 99% 通过率，终极证明是能编译并运行 Doom。

仍有限制：代码效率低，全部优化的代码还不如 GCC 全不优化的效率；缺少 16 位支持，x86 启动需要调用 GCC；汇编器和链接器还有些 bug；能编译很多项目但不是全部；Rust 代码合理但达不到专家水平。

这个实验告诉我们什么？

延伸阅读

【JCP】超算“神助攻”来了!这个Python工具让万原子DFT计算不再“卡脖子”

Linux系统/proc目录详解(4)

最新文章

热门文章

随机文章