1930年的AI,竟写出了Python代码
GPT之父 Alec Radford 搞了个大新闻:用2600亿Token训练了一个"老古董"AI,数据截止到1930年。结果这哥们写对了Python代码——它明明连电脑都没见过。
想象一下:你穿越回1930年,给一个从没见过电脑、不知道什么是"互联网"的人出了一道编程题。
他拿起笔,在白纸上写了一段 Python 代码。
而且,代码是对的。
这不是科幻。GPT之父 Alec Radford 的最新项目「talkie」,让这个荒诞的场景变成了现实。整个 AI 圈都炸了。
130亿参数,2600亿Token,全部来自1931年之前的旧文献——没有一行现代代码,没有维基百科,连"软件"的概念都不存在。
但它写出了 Python。
先搞懂两件事
为什么数据停在1930年?
现在的 GPT-4、Claude 等大模型,训练数据包含近一两年的互联网内容。但 talkie 的知识世界,被冻结在1930年12月31日。
那天之前:没有电子计算机(1946年才问世),没有编程语言(Python 1991年才出现)。
选1930年的原因很简单:美国公共版权法分界线——1931年前的作品属于公共领域,可自由使用。但代价是:所有数据都是发黄的纸质文献,2600亿 Token 全部来自手动 OCR。
重磅发现:没学过代码,却写出了 Python
团队用 HumanEval(编程能力测试)测试 talkie——给它几个 Python 函数当示例,让它解决新问题。
要知道,talkie 的训练数据中没有任何现代代码。
结果?它能写出正确的 Python 程序。
最震撼的案例:
输入编码函数 encode_shift:字母向后移5位
↓
talkie 自己写出了解码函数 decode_shift
↓
整个修改只有 一个字符:+5 → -5
它理解了"逆运算"——加密是加,解密是减。
| 对比维度 |
talkie |
GPT-4 等现代模型 |
| 训练数据 |
1931年前旧文献 |
整个互联网 |
| 见过代码? |
❌ 0行 |
✅ 数百万行 |
| 能编程? |
✅ 简单程序 |
✅ 复杂程序 |
| 能力来源 |
纯粹推理 |
推理 + 检索 |
AI 是真推理,还是高级背诵?
这才是 Radford 做这个实验的真正目的。
AI 圈一直有两派:一派说大模型是"随机鹦鹉",能说会道但不理解;另一派说模型确实在推理。
talkie 用实验给出了答案——一个从没见过代码的模型,通过几个示例写出了正确 Python,说明它真的在"推理",不是在"回忆"。
📌 背诵 vs 推理
背诵 = 考试遇到原题,写出答案。就像背下口诀表,7×8直接说56。
推理 = 遇到新题型,用已有知识推导。就像从没学过微积分,但理解了变化率,推出了求导公式。
talkie 做的是后者——它从未见过代码,但理解了"变换"和"逆运算"。
用2026年的AI,训练1930年的AI
2600亿Token的古籍考古
| 数据来源 |
数量 |
| 书籍 | 数百万本 |
| 报纸 | 数万份 |
| 科学期刊 | 数万篇 |
| 美国专利 | 百万份 |
| 判例法+礼仪手册+书信 | 数十万份 |
最大瓶颈是 OCR 质量——团队做了对照实验:
📄 传统 OCR 转录 → 学习效率 30%
🧹 正则清洗后 → 70%
✍️ 人工转录 → 100%
所以他们决定从零训练一个"复古 OCR 系统"。
最讽刺的画面
要让 talkie 学会聊天,团队从礼仪手册、书信指南、菜谱中提取问答对做训练。
然后用 Claude Sonnet 4.6 当裁判,给这个"活在"1930年的 AI 打分——
Claude 对 talkie 的评分变化
2.0 → 3.4
满分 5.0
这是 AI 史上最讽刺的画面:2026年的 AI,在教1930年的 AI 怎么说话。
😂 搞笑副作用:talkie 7B版在训练后染上了现代AI的"坏习惯"——开始用列表体说话。原来"第1、第2、第3"这种说话方式,是后天学的……
趋势验证:一条"惊讶度"曲线
团队从《纽约时报》"历史上的今天"提取了5000条事件,计算 talkie 对各年代事件的"惊讶度"。
惊讶度越高 → talkie 越觉得这件事"不合常理"
1930年前 talkie 不惊讶;1930年后惊讶度迅速攀升,在1950-1970年达峰。这条曲线背后是一个更深的问题——
谷歌 DeepMind CEO 曾提出:一个只训练到1911年的模型,能像爱因斯坦在1915年那样独立发现广义相对论吗?
talkie 目前做不到。但它指出了一条路:往上 Scale。
路线图:冻结在1930年的 ChatGPT?
🟡
今夏
GPT-3级别(~175B) · 更强推理对话
🔴
远期
超万亿Token · 接近初代ChatGPT
想象一个冻结在1930年的 ChatGPT:知道莎士比亚、牛顿、爱因斯坦,但不知道 iPhone、推特、新冠。这种"知识断层"本身就是理解AI本质的最强实验。
三点启示
🔹 推理能力比想象得更基础
从没见过代码的模型能写 Python,说明逻辑推理可能是语言本身的自然涌现,不是"高级功能"。
🔹 数据质量 > 数据规模
19世纪的旧文献训练出了不输现代模型的推理能力。关键在质不在量。
🔹 "时间污染"是最大变量
当训练数据包含未来信息时,我们分不清模型是在推理还是背诵。talkie 提供了 AI 界最干净的一次对照实验。
写在最后
回到开头:一个活在1930年的AI,为什么能写Python?
因为它读了2600亿Token的文字,理解了"因果"、"变换"、"类比"。代码,不过是这些概念的另一种"方言"。
如果1930年的AI都能学会编程……还有什么是不可能被"推理"出来的?
💬 你怎么看?
大模型是"真推理"还是"高级背诵"?
欢迎留言聊聊~
📎 参考资料
talkie 官网:https://talkie-lm.com
体验对话:https://talkie-lm.com/chat
Alec Radford: Talkie: A Pre-1930 Language Model
推荐阅读:GPT系列论文 / 大模型推理能力研究 / 数据质量与模型训练
⚡ 智驾 AI · 专注 AI 与自动驾驶深度内容
© 2026 aicoolwork