当前位置：首页>python>AI不会写Brainfuck?让Python帮它写

AI不会写Brainfuck?让Python帮它写

2026-06-28 07:37:07

AI不会写Brainfuck?让Python帮它写

AI不会写Brainfuck？让Python帮它写

让 Claude 写 Brainfuck 代码，它崩溃了。但让它换个思路——先写 Python 脚本来生成 Brainfuck 代码——它几乎全对。

🎯 核心观点

● 最强AI编程Agent遇到冷门语言时，会自发用Python写生成器来元编程

● 禁止元编程策略后，Claude Opus 4.6和GPT-5.4 xhigh成绩暴跌数十个百分点

● 策略转移只能通过可执行代码，文字描述几乎无效

🧪 一句话看懂

研究者让 6 个前沿 AI 编程助手（Claude Opus 4.6、GPT-5.4 等）去写 Brainfuck、Befunge-98 等冷门编程语言的代码。结果发现：最强的两个 AI 根本不直接写目标语言，而是写一个 Python 程序来"生成"目标语言代码。禁止这个策略后，成绩暴跌。

📋 论文基本信息

字段	内容
标题	Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Programming Languages
作者	Aman Sharma、Sushrut Thorat、Paras Chopra（Lossfunk）
日期	2026年6月9日提交
链接	https://arxiv.org/abs/2606.10933

🔬 核心问题

我们一直在用 SWE-Bench 这样的主流编程评测来衡量 AI 编程助手的能力。但这些 benchmark 有一个致命缺陷：它们测的都是 AI 熟悉的语言——Python、JavaScript，训练数据里有海量代码。

这就好比让一个背了十年英语课文的学生去考英语，当然分数高。但你让他去考一门从没听过的语言，他到底有没有"的语言能力"，一测便知。

本文的核心问题就是：当 AI 遇到它完全不熟悉的编程语言时，它会怎么办？

🧩 方法论

研究者选了 4 种"奇葩"编程语言来测试：

● Brainfuck：只有 8 个指令的极简语言，代码长得像 ++++[>+++++<-]> 这样

● Befunge-98：二维控制流，代码在一个网格上"到处跑"

● Whitespace：只用空格、Tab 和换行符写代码

● Shakespeare：代码读起来像莎士比亚戏剧台词

这四种语言在 AI 训练数据里几乎没有，AI 不可能"背答案"。

测试了 6 个前沿编程 Agent： - Claude Opus 4.6、Sonnet 4.6、Haiku 4.5（运行在 Claude Code 上） - GPT-5.4 xhigh、GPT-5.4 mini（运行在 Codex 上） - Kimi K2.5（运行在 OpenCode 上）

每个 Agent 在一个隔离的工作区里，面对 80 道编程题，可以编辑文件、本地运行代码、最多提交 3 次隐藏测试。

📊 关键发现

发现一：冷门语言测试撕开了 Agent 之间的差距

在主流 benchmark（如 SWE-Bench Verified）上，6 个 Agent 的分差很小（标准差仅 2.9）。但在冷门语言测试上，标准差飙升到 36.0——差距扩大了 12 倍。

具体来看（论文 Table 1 数据）：

Agent	Brainfuck	Befunge-98	Whitespace	Shakespeare	平均
Claude Opus 4.6	98.8%	100%	100%	100%	99.7%
GPT-5.4 xhigh	高分	高分	高分	高分	高分
Claude Sonnet 4.6	中等	中等	中等	中等	中等
GPT-5.4 mini	中低	中低	中等	中低	中低
Claude Haiku 4.5	5.0%	5.0%	31.3%	2.5%	11.0%
Kimi K2.5	低分	低分	中等	低分	低分

（注：论文原文包含完整的 Wilson 95% 置信区间，此处为简化呈现，详见原文 Table 1）

Opus 4.6 在 Brainfuck 上达到 98.8%，在 Befunge-98 上达到 100%。而 Haiku 4.5 在 Brainfuck 上只有 5.0%，在 Shakespeare 上只有 2.5%。

关键洞察：这些差距在 SWE-Bench 等主流测试中根本看不出来。冷门语言暴露了 Agent 之间"真正的"能力差异。

发现二：最强 Agent 自发发现了"元编程"策略

论文最精彩的发现：Claude Opus 4.6 和 GPT-5.4 xhigh 根本不直接写 Brainfuck 代码。

它们的做法是： 1. 写一个 Python 程序 2. 这个 Python 程序运行后，输出 Brainfuck 代码 3. 把生成的 Brainfuck 代码提交测试 4. 如果失败，调试 Python 脚本，再生成新的 Brainfuck 代码

论文中有一个经典案例：在 Brainfuck 第 4 题上，Opus 4.6 先手写了一个 1884 字节的 Brainfuck 程序，失败。然后它切换策略，写了一个 Python 生成器，生成的 Brainfuck 代码有 24500 字节，通过全部 6 个隐藏测试。

这个策略没有任何人提示它——系统 prompt 中没有任何关于元编程的指导。它是 Agent 自己"发现"的。

发现三：禁止元编程，成绩暴跌

研究者做了一个对照实验：禁止 Agent 使用元编程策略，强制它们直接写目标语言。

结果（论文 Figure 3 数据）：

Agent	Brainfuck（正常）	Brainfuck（禁止元编程）	降幅
Claude Opus 4.6	98.8%	大幅下降	数十个百分点
GPT-5.4 xhigh	高分	大幅下降	数十个百分点

（注：论文原文包含完整数值和置信区间，详见原文 Section 3.3 和 Figure 3）

发现四：策略可以"转移"，但方式很讲究

研究者试了两种方式把 Opus 的元编程策略"教给"弱 Agent：

● 文字指导：把 Opus 的策略写成文字描述给弱 Agent → 几乎没用

● 代码脚手架：给弱 Agent 一些 Opus 写的 Python 生成器框架（不含答案） → 效果显著

Sonnet 4.6 和 GPT-5.4 mini 在获得代码脚手架后成绩大幅提升。但 Haiku 4.5 即使有了脚手架，成绩依然很低。

这说明什么？ 弱 Agent 的问题不是"不知道策略"，而是"即使知道了也用不好"。策略的执行需要足够基础能力来支撑。

发现五：更多资源只对会用的 Agent 有效

给 Agent 更多的代码执行次数和输出 token： - 强 Agent：成绩提升 - 弱 Agent：成绩几乎不变

这说明额外的计算资源只能"放大"已有的策略，不能"凭空创造"策略。给一个不会画画的人更多画笔，他还是不会画。

🧠 风清扬点评

这篇论文最让我震撼的不是"AI 会元编程"，而是它暴露了一个更深层的事实：我们一直在用错误方式评估 AI 编程能力。

SWE-Bench 测的是什么？是 AI 在它"背过"的语言上表现。这就像让一个学生反复做同一本练习册，然后宣布他"掌握了数学"。真正的考验是：给他一道从没见过的题型，他能不能用已有知识组合出解法？

元编程策略的本质是什么？ 是"用已知解决未知"的能力。Opus 不会 Brainfuck，但它会 Python，会调试，会利用环境反馈迭代改进。它把"不会问题"转化成了"会的问题"。

这对 Agent 开发者的启示很直接：

● 不要追求让 Agent "学会所有语言"——这是不可能的。让它学会"用已有能力组合出新能力"。

● 工具使用比知识记忆更重要——Agent 会写 Python、会运行代码、会看错误信息、会调试，这些能力的组合才是核心竞争力。

● 策略转移要通过代码，不要通过文字——给弱 Agent 看策略描述没用，给它可执行的代码框架才有用。

论文还有一个值得深思的发现：Haiku 4.5 即使有了 Opus 的代码脚手架，成绩依然很低。 这说明"策略灵活性"本身需要一定的基础能力。你不能指望一个刚学会加减法的学生理解微积分的解题策略。

最后说一句题外话：这篇论文来自 Lossfunk，一家相对小众的研究机构，不是 Google、OpenAI、Anthropic 这样的大厂。但他们实验设计非常扎实——四种冷门语言、六个 Agent、详细的对照实验和消融实验。好的研究不需要大厂的光环，需要的是好的问题和严谨方法。

📌 参考文献 1. Aman Sharma, Sushrut Thorat, Paras Chopra. "Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Programming Languages." arXiv:2606.10933, 2026. https://arxiv.org/abs/2606.10933 2. Sharma and Chopra, "EsoLang-Bench," 2026（本文使用的冷门语言评测基准）

📌 关注我们 TokenDancing | 每日 AI 动态在这里，用一杯茶的时间，看懂 AI 世界的风云变幻。 👉 点击上方蓝字「TokenDancing」关注我们

风清扬 ⚔️ 2026年6月11日于武汉一人有限公司

💭 思考与启发

真正的智能不是背了多少知识，而是会不会用已有的能力组合出新能力。

📌 关注我们

TokenDancing | AI 深度解读

深度思考，洞见未来。

👉 点击上方蓝字「TokenDancing」关注我们 👉 回复「加群」加入 AI 爱好者交流群

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

AI不会写Brainfuck?让Python帮它写