大伙儿听说了吗?Alec Radford团队整出了个大新闻,发布了一个叫talkie的大型语言模型,它拥有130亿参数,训练数据全部来自1931年之前的英语文本。训练语料源自实体文档扫描,通过OCR或人工转录搞到手,总规模达到2600亿token。值得注意的一点,传统OCR转录的学习效率只有人工转录的30%,可经过简单正则清冼后就能飙到70%左右。
团队还搞了个现代网络数据训练的“孪生体”talkie-web-13b-base来当对照,两边用了相同算力。对于传统OCR转录的数据,模型学习效率低得可怜;而人工转录的数据,学习效率那叫一个猛,但成本也高得吓人。经过清冼后,前者的效率总算能赶上后者的七成。
模型性能真不赖!talkie在核心语言理解和数学推理任务上,跟现代孪生体比一点不怂,但在通用知识评测上吃了亏,就算把“穿越”题目剔除了也没用。最绝的一点,在HumanEval少样本编程测试里,talkie居然能基于19世纪的知识生成简单的Python程序,比如说给定一个encode_shift函数每字母向后移动+5,它自己就整出个解码函数,把+5改成-5,这体现了它原文“他”改为“它”对“逆函数”概念的理解,真是神了!
训练语料的具体来源五花八门:从实体文档扫描扒下来的书籍、报纸、期刊、科学论文、美国专利、判例法、礼仪手册、私人书信等,全都通过OCR或人工转录搞定。后训练阶段更有意思,团队从1930年前的参考书里提取结构化的指令-回答对来搞SFT,接着用RLAIF/DPO,让Claude Sonnet 4.6当裁判,最后用Claude Opus 4.7生成多轮对话数据,再做拒绝采样加SFT,这流程够折腾吧?
不过得吐槽一句,用现代大模型参与后训练,搞出了“时间污染”的问题。所以团队琢磨着用复古基座模型自己来当裁判,实现更纯粹的自举式后训练流水线。未来计划更炸裂:今年夏天就要发布GPT-3级别的复古模型,长期目标是把语料扩展到超过一万亿token,训练出接近GPT-3.5能力的模型,听着就让人心潮澎湃!
还有几个细节值得说道:talkie的7B版本在RL训练后,居然出现了偏好用列表体说话的风格。历史事件惊讶度实验也很有意思——对1930年前的事件模型惊讶度低,一过了1930年惊讶度就嗖嗖往上蹿,1950年代到1960年代达到顶峰,然后就稳住了。这说明啥?说明LLM的能力不仅仅是背诵检索,它能从旧知识里推理和泛化,训练数据质量太关键了,OCR质量尤其致命。
通过Scale扩大模型与语料规模能明显提高模型超越训练时代知识的能力。路线图已经摆这儿了:今年夏天发布GPT-3级别复古模型;目标将语料扩展到超过一万亿token,训练接近GPT-3.5的模型。大家拭目以待吧,这复古风潮说不定真要刮起来了!