当前位置：首页>python>1930年AI竟写Python代码!抢程序员饭碗?

1930年AI竟写Python代码!抢程序员饭碗?

劳动节之际，一个百岁“老头”模型也来工作了！

是的，有人用只有1930年知识的大模型，微调成了软件工程师……

过程比想象中轻松，仅用250个训练样本，强悍的老头便解决了自己人生中的第一个编程问题——给xarray库打了个补丁。

看看这跨越近百年的“过去之灵”，竟写出了Python代码，要跟Claude们「学坏」了。（bushi）

先补充下背景，1930是谁？

这是最近爆火的「老头AI」，全名叫talkie-1930-13b。操盘手是Nick Levine、David Duvenaud和Alec Radford。

而他们对老头最有趣的设计，就是其训练数据有条铁律：1931年1月1日之后的任何一个字，它都不知道电视机、互联网，更不知道二战怎么收场……

永远停在了1930年12月31日的午夜。

让全网「瘫软」的点在于，就这么个老古董，当扔给它一道Python编程题时，这个跨越近百年的「过去之灵」，竟然写出了人生第一行Python代码。

团队对Alec Radford的这个1930 vintage LLM做了微调，让它去解SWE-bench上的真实软件工程问题。谁曾想，真让老头干成了。

250个训练样本之后，它落地了第一个fix——一个针对xarray库的小补丁。

百岁老人，硬核上岗。

对话的时候，它尝试apply patch失败了。但老兵不死，老头仍在继续尝试，直到终于意识到自己错在哪……

虽然fix本身很简单，但真正重要的，是老头在解题过程中的思考和推理能力，跟现代模型如出一辙。

demo之外，benchmark的表现同样亮眼。当微调时的训练数据规模扩展到大约75K条trajectory，也就是10亿token的时候，模型在SWE-bench-Verified上达到了4%的pass@100。这进步幅度相当可观。

虽然绝对值还很低，但对一个1930年知识模型来说，已经很离谱了。

更有意思的是另一个对照实验。团队还同时给老头训练了一个兄弟模型talkie-web，在互联网数据上预训练的。同样的微调配方，talkie-web在SWE-bench-Verified上的成绩是……

这结果，欢迎复现。团队已经在GitHub上开源了项目，链接放在文章结尾。

团队自己也很兴奋，在README里喊话：如果你手头有更多算力，我们很想看到1930模型和互联网模型在后训练持续扩展时的完整scaling曲线对比。

想看想看，这可比单纯秀肌肉的benchmark有意思多了。团队并没有剖析背后的原因，但我看了不少网友在帖子下面的评论，觉得这是一个值得讨论的话题。

我们一直以为，AI需要吃掉整个互联网才能变聪明。但如果一个只读过1930年以前书的模型，经过一点点后训练就能写代码修bug……

那我们对「什么是智能」的理解，是不是也得重新想想？

✨ 感谢阅读 ✨