当前位置：首页>python>1930年AI写Python!它连电脑都没见过

1930年AI写Python!它连电脑都没见过

2026-06-30 10:53:21

⚡ 智驾 AI

专注 AI 与自动驾驶的深度内容

1930年的AI，竟写出了Python代码

GPT之父 Alec Radford 搞了个大新闻：用2600亿Token训练了一个"老古董"AI，数据截止到1930年。结果这哥们写对了Python代码——它明明连电脑都没见过。

想象一下：你穿越回1930年，给一个从没见过电脑、不知道什么是"互联网"的人出了一道编程题。

他拿起笔，在白纸上写了一段 Python 代码。

而且，代码是对的。

这不是科幻。GPT之父 Alec Radford 的最新项目「talkie」，让这个荒诞的场景变成了现实。整个 AI 圈都炸了。

130亿参数，2600亿Token，全部来自1931年之前的旧文献——没有一行现代代码，没有维基百科，连"软件"的概念都不存在。

但它写出了 Python。

先搞懂两件事

为什么数据停在1930年？

现在的 GPT-4、Claude 等大模型，训练数据包含近一两年的互联网内容。但 talkie 的知识世界，被冻结在1930年12月31日。

那天之前：没有电子计算机（1946年才问世），没有编程语言（Python 1991年才出现）。

选1930年的原因很简单：美国公共版权法分界线——1931年前的作品属于公共领域，可自由使用。但代价是：所有数据都是发黄的纸质文献，2600亿 Token 全部来自手动 OCR。

重磅发现：没学过代码，却写出了 Python

团队用 HumanEval（编程能力测试）测试 talkie——给它几个 Python 函数当示例，让它解决新问题。

要知道，talkie 的训练数据中没有任何现代代码。

结果？它能写出正确的 Python 程序。

最震撼的案例：

输入编码函数 encode_shift：字母向后移5位

↓

talkie 自己写出了解码函数 decode_shift

↓

整个修改只有 一个字符：+5 → -5

它理解了"逆运算"——加密是加，解密是减。

对比维度	talkie	GPT-4 等现代模型
训练数据	1931年前旧文献	整个互联网
见过代码？	❌ 0行	✅ 数百万行
能编程？	✅ 简单程序	✅ 复杂程序
能力来源	纯粹推理	推理 + 检索

AI 是真推理，还是高级背诵？

这才是 Radford 做这个实验的真正目的。

AI 圈一直有两派：一派说大模型是"随机鹦鹉"，能说会道但不理解；另一派说模型确实在推理。

talkie 用实验给出了答案——一个从没见过代码的模型，通过几个示例写出了正确 Python，说明它真的在"推理"，不是在"回忆"。

📌 背诵 vs 推理

背诵 = 考试遇到原题，写出答案。就像背下口诀表，7×8直接说56。

推理 = 遇到新题型，用已有知识推导。就像从没学过微积分，但理解了变化率，推出了求导公式。

talkie 做的是后者——它从未见过代码，但理解了"变换"和"逆运算"。

用2026年的AI，训练1930年的AI

2600亿Token的古籍考古

数据来源	数量
书籍	数百万本
报纸	数万份
科学期刊	数万篇
美国专利	百万份
判例法+礼仪手册+书信	数十万份

最大瓶颈是 OCR 质量——团队做了对照实验：

📄 传统 OCR 转录 → 学习效率 30%

🧹 正则清洗后 → 70%

✍️ 人工转录 → 100%

所以他们决定从零训练一个"复古 OCR 系统"。

最讽刺的画面

要让 talkie 学会聊天，团队从礼仪手册、书信指南、菜谱中提取问答对做训练。

然后用 Claude Sonnet 4.6 当裁判，给这个"活在"1930年的 AI 打分——

Claude 对 talkie 的评分变化

2.0 → 3.4

满分 5.0

这是 AI 史上最讽刺的画面：2026年的 AI，在教1930年的 AI 怎么说话。

😂 搞笑副作用：talkie 7B版在训练后染上了现代AI的"坏习惯"——开始用列表体说话。原来"第1、第2、第3"这种说话方式，是后天学的……

趋势验证：一条"惊讶度"曲线

团队从《纽约时报》"历史上的今天"提取了5000条事件，计算 talkie 对各年代事件的"惊讶度"。

惊讶度越高 → talkie 越觉得这件事"不合常理"

talkie 对各年代的"惊讶度"趋势

1930年前 talkie 不惊讶；1930年后惊讶度迅速攀升，在1950-1970年达峰。这条曲线背后是一个更深的问题——

谷歌 DeepMind CEO 曾提出：一个只训练到1911年的模型，能像爱因斯坦在1915年那样独立发现广义相对论吗？

talkie 目前做不到。但它指出了一条路：往上 Scale。

路线图：冻结在1930年的 ChatGPT？

GPT-3级别(~175B) · 更强推理对话

🔴

远期

超万亿Token · 接近初代ChatGPT

想象一个冻结在1930年的 ChatGPT：知道莎士比亚、牛顿、爱因斯坦，但不知道 iPhone、推特、新冠。这种"知识断层"本身就是理解AI本质的最强实验。

三点启示

🔹 推理能力比想象得更基础

从没见过代码的模型能写 Python，说明逻辑推理可能是语言本身的自然涌现，不是"高级功能"。

🔹 数据质量 > 数据规模

19世纪的旧文献训练出了不输现代模型的推理能力。关键在质不在量。

🔹 "时间污染"是最大变量

当训练数据包含未来信息时，我们分不清模型是在推理还是背诵。talkie 提供了 AI 界最干净的一次对照实验。

写在最后

回到开头：一个活在1930年的AI，为什么能写Python？

因为它读了2600亿Token的文字，理解了"因果"、"变换"、"类比"。代码，不过是这些概念的另一种"方言"。

如果1930年的AI都能学会编程……还有什么是不可能被"推理"出来的？

💬 你怎么看？

大模型是"真推理"还是"高级背诵"？

欢迎留言聊聊~

📎 参考资料

talkie 官网：https://talkie-lm.com

体验对话：https://talkie-lm.com/chat

Alec Radford: Talkie: A Pre-1930 Language Model

推荐阅读：GPT系列论文 / 大模型推理能力研究 / 数据质量与模型训练

⚡ 智驾 AI · 专注 AI 与自动驾驶深度内容

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

1930年AI写Python!它连电脑都没见过

1930年的AI，竟写出了Python代码

先搞懂两件事

为什么数据停在1930年？

重磅发现：没学过代码，却写出了 Python

AI 是真推理，还是高级背诵？

用2026年的AI，训练1930年的AI

2600亿Token的古籍考古

最讽刺的画面

趋势验证：一条"惊讶度"曲线

路线图：冻结在1930年的 ChatGPT？

三点启示

写在最后

最新文章

热门文章

随机文章

1930年AI写Python!它连电脑都没见过

1930年的AI，竟写出了Python代码

先搞懂两件事

为什么数据停在1930年？

重磅发现：没学过代码，却写出了 Python

AI 是真推理，还是高级背诵？

用2026年的AI，训练1930年的AI

2600亿Token的古籍考古

最讽刺的画面

趋势验证：一条"惊讶度"曲线

路线图：冻结在1930年的 ChatGPT？

三点启示

写在最后

Python人必存pandas数据分析速查图

Python之basemap画图27问

最新文章

热门文章

随机文章