AI不会写Brainfuck?让Python帮它写

让 Claude 写 Brainfuck 代码,它崩溃了。但让它换个思路——先写 Python 脚本来生成 Brainfuck 代码——它几乎全对。
● 最强AI编程Agent遇到冷门语言时,会自发用Python写生成器来元编程
● 禁止元编程策略后,Claude Opus 4.6和GPT-5.4 xhigh成绩暴跌数十个百分点
研究者让 6 个前沿 AI 编程助手(Claude Opus 4.6、GPT-5.4 等)去写 Brainfuck、Befunge-98 等冷门编程语言的代码。结果发现:最强的两个 AI 根本不直接写目标语言,而是写一个 Python 程序来"生成"目标语言代码。禁止这个策略后,成绩暴跌。
| 字段 |
内容 |
| 标题 |
Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Programming Languages |
| 作者 |
Aman Sharma、Sushrut Thorat、Paras Chopra(Lossfunk) |
| 日期 |
2026年6月9日提交 |
| 链接 |
https://arxiv.org/abs/2606.10933 |
我们一直在用 SWE-Bench 这样的主流编程评测来衡量 AI 编程助手的能力。但这些 benchmark 有一个致命缺陷:它们测的都是 AI 熟悉的语言——Python、JavaScript,训练数据里有海量代码。
这就好比让一个背了十年英语课文的学生去考英语,当然分数高。但你让他去考一门从没听过的语言,他到底有没有"的语言能力",一测便知。
本文的核心问题就是:当 AI 遇到它完全不熟悉的编程语言时,它会怎么办?
研究者选了 4 种"奇葩"编程语言来测试:
● Brainfuck:只有 8 个指令的极简语言,代码长得像 ++++[>+++++<-]> 这样
● Befunge-98:二维控制流,代码在一个网格上"到处跑"
● Whitespace:只用空格、Tab 和换行符写代码
● Shakespeare:代码读起来像莎士比亚戏剧台词
这四种语言在 AI 训练数据里几乎没有,AI 不可能"背答案"。
测试了 6 个前沿编程 Agent:
- Claude Opus 4.6、Sonnet 4.6、Haiku 4.5(运行在 Claude Code 上)
- GPT-5.4 xhigh、GPT-5.4 mini(运行在 Codex 上)
- Kimi K2.5(运行在 OpenCode 上)
每个 Agent 在一个隔离的工作区里,面对 80 道编程题,可以编辑文件、本地运行代码、最多提交 3 次隐藏测试。
发现一:冷门语言测试撕开了 Agent 之间的差距
在主流 benchmark(如 SWE-Bench Verified)上,6 个 Agent 的分差很小(标准差仅 2.9)。但在冷门语言测试上,标准差飙升到 36.0——差距扩大了 12 倍。
具体来看(论文 Table 1 数据):
| Agent |
Brainfuck |
Befunge-98 |
Whitespace |
Shakespeare |
平均 |
| Claude Opus 4.6 |
98.8% |
100% |
100% |
100% |
99.7% |
| GPT-5.4 xhigh |
高分 |
高分 |
高分 |
高分 |
高分 |
| Claude Sonnet 4.6 |
中等 |
中等 |
中等 |
中等 |
中等 |
| GPT-5.4 mini |
中低 |
中低 |
中等 |
中低 |
中低 |
| Claude Haiku 4.5 |
5.0% |
5.0% |
31.3% |
2.5% |
11.0% |
| Kimi K2.5 |
低分 |
低分 |
中等 |
低分 |
低分 |
(注:论文原文包含完整的 Wilson 95% 置信区间,此处为简化呈现,详见原文 Table 1)
Opus 4.6 在 Brainfuck 上达到 98.8%,在 Befunge-98 上达到 100%。而 Haiku 4.5 在 Brainfuck 上只有 5.0%,在 Shakespeare 上只有 2.5%。
关键洞察:这些差距在 SWE-Bench 等主流测试中根本看不出来。冷门语言暴露了 Agent 之间"真正的"能力差异。
发现二:最强 Agent 自发发现了"元编程"策略
论文最精彩的发现:Claude Opus 4.6 和 GPT-5.4 xhigh 根本不直接写 Brainfuck 代码。
它们的做法是:
1. 写一个 Python 程序
2. 这个 Python 程序运行后,输出 Brainfuck 代码
3. 把生成的 Brainfuck 代码提交测试
4. 如果失败,调试 Python 脚本,再生成新的 Brainfuck 代码
论文中有一个经典案例:在 Brainfuck 第 4 题上,Opus 4.6 先手写了一个 1884 字节的 Brainfuck 程序,失败。然后它切换策略,写了一个 Python 生成器,生成的 Brainfuck 代码有 24500 字节,通过全部 6 个隐藏测试。
这个策略没有任何人提示它——系统 prompt 中没有任何关于元编程的指导。它是 Agent 自己"发现"的。
发现三:禁止元编程,成绩暴跌
研究者做了一个对照实验:禁止 Agent 使用元编程策略,强制它们直接写目标语言。
结果(论文 Figure 3 数据):
| Agent |
Brainfuck(正常) |
Brainfuck(禁止元编程) |
降幅 |
| Claude Opus 4.6 |
98.8% |
大幅下降 |
数十个百分点 |
| GPT-5.4 xhigh |
高分 |
大幅下降 |
数十个百分点 |
(注:论文原文包含完整数值和置信区间,详见原文 Section 3.3 和 Figure 3)
发现四:策略可以"转移",但方式很讲究
研究者试了两种方式把 Opus 的元编程策略"教给"弱 Agent:
● 文字指导:把 Opus 的策略写成文字描述给弱 Agent → 几乎没用
● 代码脚手架:给弱 Agent 一些 Opus 写的 Python 生成器框架(不含答案) → 效果显著
Sonnet 4.6 和 GPT-5.4 mini 在获得代码脚手架后成绩大幅提升。但 Haiku 4.5 即使有了脚手架,成绩依然很低。
这说明什么? 弱 Agent 的问题不是"不知道策略",而是"即使知道了也用不好"。策略的执行需要足够基础能力来支撑。
发现五:更多资源只对会用的 Agent 有效
给 Agent 更多的代码执行次数和输出 token:
- 强 Agent:成绩提升
- 弱 Agent:成绩几乎不变
这说明额外的计算资源只能"放大"已有的策略,不能"凭空创造"策略。给一个不会画画的人更多画笔,他还是不会画。
这篇论文最让我震撼的不是"AI 会元编程",而是它暴露了一个更深层的事实:我们一直在用错误方式评估 AI 编程能力。
SWE-Bench 测的是什么?是 AI 在它"背过"的语言上表现。这就像让一个学生反复做同一本练习册,然后宣布他"掌握了数学"。真正的考验是:给他一道从没见过的题型,他能不能用已有知识组合出解法?
元编程策略的本质是什么? 是"用已知解决未知"的能力。Opus 不会 Brainfuck,但它会 Python,会调试,会利用环境反馈迭代改进。它把"不会问题"转化成了"会的问题"。
这对 Agent 开发者的启示很直接:
● 不要追求让 Agent "学会所有语言"——这是不可能的。让它学会"用已有能力组合出新能力"。
● 工具使用比知识记忆更重要——Agent 会写 Python、会运行代码、会看错误信息、会调试,这些能力的组合才是核心竞争力。
● 策略转移要通过代码,不要通过文字——给弱 Agent 看策略描述没用,给它可执行的代码框架才有用。
论文还有一个值得深思的发现:Haiku 4.5 即使有了 Opus 的代码脚手架,成绩依然很低。 这说明"策略灵活性"本身需要一定的基础能力。你不能指望一个刚学会加减法的学生理解微积分的解题策略。
最后说一句题外话:这篇论文来自 Lossfunk,一家相对小众的研究机构,不是 Google、OpenAI、Anthropic 这样的大厂。但他们实验设计非常扎实——四种冷门语言、六个 Agent、详细的对照实验和消融实验。好的研究不需要大厂的光环,需要的是好的问题和严谨方法。
📌 参考文献
1. Aman Sharma, Sushrut Thorat, Paras Chopra. "Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Programming Languages." arXiv:2606.10933, 2026. https://arxiv.org/abs/2606.10933
2. Sharma and Chopra, "EsoLang-Bench," 2026(本文使用的冷门语言评测基准)
📌 关注我们
TokenDancing | 每日 AI 动态
在这里,用一杯茶的时间,看懂 AI 世界的风云变幻。
👉 点击上方蓝字「TokenDancing」关注我们
风清扬 ⚔️ 2026年6月11日于武汉一人有限公司
真正的智能不是背了多少知识,而是会不会用已有的能力组合出新能力。
📌 关注我们
TokenDancing | AI 深度解读
深度思考,洞见未来。
👉 点击上方蓝字「TokenDancing」关注我们
👉 回复「加群」加入 AI 爱好者交流群