当前位置：首页>python>百年前AI竟能写Python?GPT之父造出“老古董”,没学过编程震惊全世界!

百年前AI竟能写Python?GPT之父造出“老古董”,没学过编程震惊全世界!

2026-06-30 18:16:21

大伙儿听说了吗？Alec Radford团队整出了个大新闻，发布了一个叫talkie的大型语言模型，它拥有130亿参数，训练数据全部来自1931年之前的英语文本。训练语料源自实体文档扫描，通过OCR或人工转录搞到手，总规模达到2600亿token。值得注意的一点，传统OCR转录的学习效率只有人工转录的30%，可经过简单正则清冼后就能飙到70%左右。

团队还搞了个现代网络数据训练的“孪生体”talkie-web-13b-base来当对照，两边用了相同算力。对于传统OCR转录的数据，模型学习效率低得可怜；而人工转录的数据，学习效率那叫一个猛，但成本也高得吓人。经过清冼后，前者的效率总算能赶上后者的七成。

模型性能真不赖！talkie在核心语言理解和数学推理任务上，跟现代孪生体比一点不怂，但在通用知识评测上吃了亏，就算把“穿越”题目剔除了也没用。最绝的一点，在HumanEval少样本编程测试里，talkie居然能基于19世纪的知识生成简单的Python程序，比如说给定一个encode_shift函数每字母向后移动+5，它自己就整出个解码函数，把+5改成-5，这体现了它原文“他”改为“它”对“逆函数”概念的理解，真是神了！

训练语料的具体来源五花八门：从实体文档扫描扒下来的书籍、报纸、期刊、科学论文、美国专利、判例法、礼仪手册、私人书信等，全都通过OCR或人工转录搞定。后训练阶段更有意思，团队从1930年前的参考书里提取结构化的指令-回答对来搞SFT，接着用RLAIF/DPO，让Claude Sonnet 4.6当裁判，最后用Claude Opus 4.7生成多轮对话数据，再做拒绝采样加SFT，这流程够折腾吧？

不过得吐槽一句，用现代大模型参与后训练，搞出了“时间污染”的问题。所以团队琢磨着用复古基座模型自己来当裁判，实现更纯粹的自举式后训练流水线。未来计划更炸裂：今年夏天就要发布GPT-3级别的复古模型，长期目标是把语料扩展到超过一万亿token，训练出接近GPT-3.5能力的模型，听着就让人心潮澎湃！

还有几个细节值得说道：talkie的7B版本在RL训练后，居然出现了偏好用列表体说话的风格。历史事件惊讶度实验也很有意思——对1930年前的事件模型惊讶度低，一过了1930年惊讶度就嗖嗖往上蹿，1950年代到1960年代达到顶峰，然后就稳住了。这说明啥？说明LLM的能力不仅仅是背诵检索，它能从旧知识里推理和泛化，训练数据质量太关键了，OCR质量尤其致命。

通过Scale扩大模型与语料规模能明显提高模型超越训练时代知识的能力。路线图已经摆这儿了：今年夏天发布GPT-3级别复古模型；目标将语料扩展到超过一万亿token，训练接近GPT-3.5的模型。大家拭目以待吧，这复古风潮说不定真要刮起来了！

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

百年前AI竟能写Python?GPT之父造出“老古董”,没学过编程震惊全世界!

最新文章

热门文章

随机文章

百年前AI竟能写Python?GPT之父造出“老古董”,没学过编程震惊全世界!

【网站建设】网站建设:如何利用Python快速搭建网站

python直降

最新文章

热门文章

随机文章