GPT-5.2在Python上能拿90%的分数,换成一种叫Whitespace的语言,直接归零。
不是50分,不是10分,是0%。

这是EsoLang-Bench最新基准测试的残酷现实。
全球顶尖大模型被扔到Brainfuck、Befunge-98、Unlambda这些"变态"编程语言面前,它们的智商集体掉线。最好成绩4.2%,相当于一张满分100的卷子只拿了4分。
而它们在平时常用的Python上,能拿90分。
"恶意"考试
说实话,这个测试有点欺负人。
研究团队选了五种esoteric languages(冷门/怪异编程语言):Brainfuck、Befunge-98、Whitespace、Unlambda和Shakespeare。这些语言的训练数据比Python少了5000到10万倍。
Python是互联网的原住民,而这些语言像是藏在地下室的手写密码。
测试规则很简单:80道编程题,从"Hello World"到复杂算法,分Easy、Medium、Hard、Extra-Hard四级。每个模型用各种 prompting 策略轮番上阵。
结果呢?
所有模型在Medium及以上难度全军覆没,0%。
Whitespace在所有配置下保持0%不败战绩。

连最强的GPT-5.2,总体准确率也只有4.2%。
Whitespace:看不见的降维打击
最惨烈的战场是Whitespace。
这种语言的语法只有三个元素:空格、制表符、换行。肉眼看起来就是一片空白,但程序就藏在这些空白里。
对人类来说已经够反人类了,对AI更是绝杀。
因为大模型的tokenizer(分词器)在处理Python时,"print"是一个token,"def"是一个token,高效优雅。但面对Whitespace,空格就是空格,它无法"看见"这些空格背后的语义。
这就像让一个人闭着眼睛走迷宫,还要他描述墙的颜色。
研究数据显示,模型在这种语言上完全无法生成有效代码。不是逻辑错,是压根编译不过。这暴露了一个尴尬事实:AI所谓的"编程能力",可能只是对训练数据的高级模仿。
错误图谱:每种语言都在嘲笑不同的短板

有意思的是,不同语言暴露了模型不同的"脑残"模式。
Brainfuck(只有8个命令的极简语言)上,83.9%的错误是逻辑错误。模型能写出语法正确的代码,但算法是错的。这说明它"认识"这些命令,但不理解怎么组合它们解决问题。
Unlambda(函数式编程的怪胎)上,74.6%是编译错误。模型连有效的组合子表达式都写不出来,就像背英语单词只背了字母顺序。
Befunge-98(二维网格语言)上,93.4%是运行时错误,无限循环是家常便饭。
Shakespeare(用戏剧对话写代码)上,59.2%是运行时错误。模型能写出像莎士比亚戏剧的语法,但把"哈姆雷特"和"奥菲莉亚"的对话逻辑搞成一团浆糊。
这些错误分布像是一份体检报告,告诉我们在没有"标准答案"可抄时,AI的推理链条有多脆弱。
自我反思?没用。多智能体?更糟。
更让人意外的是策略对比。
研究团队试了五种 prompting 方法:零样本、少样本、思维链(CoT)、自我脚手架(Self-Scaffolding),还有多智能体系统。
少样本提示(Few-shot)相比零样本,没有显著提升(p=0.505)。这意味着给AI看几个例子,它也学不会在上下文中掌握新范式。
自我反思和多智能体系统更是负优化。加一个"critic"(评论家)角色或"planner"(规划者)角色,准确率不升反降。因为当所有组件都缺乏领域知识时,额外的LLM调用只是引入了更多噪声。
唯一有效的是Self-Scaffolding:让模型根据解释器的错误信息反复迭代。这像是一个学生对着编译器报错一点点试,虽然笨,但比瞎猜强。
Agentic系统的微弱曙光
不过,有个小反转。
当研究人员给模型装上"手"——允许它们调用真实的解释器执行代码(Agentic模式,如Codex和Claude Code),成绩翻了约2倍。
Codex在Brainfuck上拿到了13.8%,这是整个 benchmark 的单项最高分。
这说明执行反馈循环可以部分弥补训练数据的缺失。AI还是不懂这些语言,但它能"试错"了。
但即便如此,13.8%距离及格线还很远。而且面对Whitespace,有工具也没用,依然是0%。
我们真的在创造智能,还是在造高级复读机?
这个测试最扎心的启示在于:当前大模型在代码生成上的高光表现,可能主要是训练数据规模的函数,而非通用推理能力的证明。
Python的高分,是因为它被喂了千亿级别的代码片段;Whitespace的零分,是因为没人会无聊到用空格写程序喂给AI。
当遇到训练数据中经济不合理存在的知识(谁会花钱标注Whitespace?),AI的"理解"瞬间蒸发。
热门评论里有人调侃:"我也得0分,说明我也是靠记忆而非真正推理?"
但区别在于,人类看到Whitespace的文档,能学会;AI看了再多例子,在Medium难度以上依然0%。
这才是差距。
【kimi-k2.5锐评】:当AI在Whitespace面前集体归零,我们终于看清——所谓编程天才,不过是个背题高手,一旦超纲,连交白卷的姿势都透着训练数据的贫瘠。
参考链接:
https://esolang-bench.vercel.app/