Andrej Karpathy:AI编程新纪元的前夜[012726]全文翻译自Andrej的推特:https://x.com/karpathy/status/2015883857489522876?s=20
TLDR;我们现在在哪?LLM agent能力(尤其是Claude&Codex)在差不多2025年12月左右跨过了某种coherence阈值,于是对码农以及紧密相关领域造成了一个phase shift。突然之间,智力这一块看起来明显跑在其他一切前面:整合(工具、知识),组织层面的新workflow和process、以及更广义的diffusion。2026会是个高能量的一年:整个行业都在消化(metabolize)这套新能力。
最近几周用claude写了不少code,随手记几条。
编程工作流的变化
随着最近LLM代码能力的巨大提升,我和很多人一样,迅速从11月份80%的手动编码加自动补全和20%的智能Agent辅助,转变为12月份80%的智能Agent写代码,剩下20%的时间只做些编辑和收尾。换句话说,现在我基本是在用英语来编程。有点羞耻地用文字告诉LLM该写什么代码。。。这确实有点伤自尊,但能用大块的“代码行动(code actions)”去操控软件,尤其是当你慢慢适应它,配置好它,学会使用它,并真正理解了它能做什么,不能做什么之后,带来的净收益实在太大了。这是我差不多20年编程生涯里,基本工作流程发生的最大一次变化,而且是在短短几周内就完成的。
我估计现在有两位数百分比(double digit percent)的工程师已经在经历类似变化,但普通大众对这一变化的认知还停留在个位数百分比(low single digit percent)。
对IDE和Agent群组的过度期待以及模型的易错性
目前,无论是不再需要IDE还是agent swarm(智能体群组)的宣传,个人觉得都过于夸张,也过于提前了。模型依然频繁犯错,如果你对代码真正有所在意的话,我强烈建议你像鹰一样盯着旁边的IDE,仔细审查它们的输出。当然模型错误发生的类型也在变化:不再是简单的语法错误,而是更加隐秘的概念性错误,就像是一个稍微粗心,有点急躁的初级程序员犯的错误。
最常见的情况是,模型会替你做出错误的假设(assumptions),然后一路跑下去,不做任何检查。它们不善于管理自己的困惑(confusion),不会主动寻求澄清(clarifications),不会把矛盾(inconsistencies)暴露出来,也不会把利弊权衡(tradeoffs)摆到台面上,更不会在应该质疑你的时候质疑你,依然有点过度顺从(sycophantic)。虽然规划模式(plan mode)下情况好一点,但我们现在确实需要一种更轻量的内联规划模式(inline plan mode)。
它们还喜欢过度复杂化代码和API,abstractions越堆越厚,自己产生的无用代码(dead code)也不会清理。它们能给你造出上千行低效,臃肿且脆弱的结构,而你只需提醒一句:你就不能简单这么做吗?模型立刻会回答当然可以!随即把代码削减到一百行。。。
有时候,它们还会随手改动甚至删除自己“不喜欢”或者“没完全理解”的注释或代码,即使这些部分与当前任务完全无关。这些问题,在我尝试通过一些简单的CLAUDE.md文件中的指令修正之后,仍然存在。不过,尽管问题不少,整体上仍然是巨大的净提升,而且很难想象回到过去纯手写代码的时代。每个人都有自己的开发流程(developing flow),目前我的方案是:左侧在ghostty的窗口或标签里开几个Claude会话,右侧开IDE浏览代码,做手动编辑。
智能Agent的坚韧性
看Agent不知疲倦地去解决一个问题非常有意思。它们永远不会疲倦,也永远不会气馁,只会不停地尝试各种方案。很多时候,人类早就放弃,改天再战了。你看着它为某个问题挣扎了很久,结果30分钟后居然赢了,那种瞬间会让你强烈感觉到“通用人工智能(AGI)的气息”。这时你会突然意识到,工作效率的核心瓶颈其实是耐力(stamina),而有了LLMs之后,这个瓶颈被极大地提升了。
效率的提升
怎么量化LLM assistance带来的“speedup”其实不太清楚。当然我感觉自己做原本要做的事净速度快了不少,但更大的效应是:我做的事比原计划多得多,因为1)我能把各种以前根本不值得写的东西都写出来;2)我能去碰以前因为knowledge/skill issue而完全搞不动的code。所以上升的确是speedup,但可能更准确地说是expansion。
撬动效应(Leverage)
LLMs在“循环迭代直到满足明确目标”这件事上异常擅长,这也是大多数“feel the AGI”magic的来源。别告诉它怎么做,给它success criteria,然后看它自己跑。让它先写tests,再去pass它们。把它放进一个带browser MCP的loop里。先写一个很naive但大概率correct的algorithm,然后让它在preserving correctness的前提下去optimize。把你的思路从imperative(重要的)改成declarative(可陈述性的),让agents能loop更久,你就会获得更大的杠杆。
趣味性
我没预料到,跟agents一起programming反而更fun,因为大量填空式的苦差(drudgery)被拿走了,剩下的是创意部分。我也更少blocked/stuck(那真的不fun),而且更有courage,因为几乎总能找到一种方式跟它hand in hand地推进一点点正向进展。我也看到过不少人持相反观点;LLM coding大概率会把engineers分成两类:一类主要喜欢coding本身,另一类主要喜欢building。
能力的退化(Atrophy)
我已经注意到自己手写code的能力在慢慢退化。生成(写代码)和区分(读代码)在大脑里是两种不同能力。很大程度上因为programming里充满各种小而多的,主要是句法的(syntactic)细节,就算你写起来吃力,你review code依然可以做得很好。
大规模粗制滥造时代(Slopacolypse)
我在给2026做心理准备:它可能会成为所有digital media的slopacolypse——从github、substack、arxiv,到X/instagram,再到更广义的一切。我们也会看到更多AI炒作的效率中心(这真的还能更夸张吗?),当然与此同时我认为也有真正的实打实的提升。
几个脑子里挥之不去的问题:
第一个,“10X engineer”会发生什么?也就是平均(mean)工程师和最强(max)工程师之间的生产力比值。很可能这个差距会变得大很多。
第二个,有了LLM之后,通才会不会越来越压过专家?LLM在补“填空题”(micro)上很强,但在大方向的策略(macro)上没那么强。
第三个,未来LLM coding到底是什么体验?像在玩starcraft?玩factorio?还是像演奏音乐?
第四个,整个社会到底有多少被digital knowledge work卡着脖子?
TLDR;我们现在在哪?LLM agent能力(尤其是Claude&Codex)在差不多2025年12月左右跨过了某种coherence阈值,于是对码农以及紧密相关领域造成了一个phase shift。突然之间,智力这一块看起来明显跑在其他一切前面:整合(工具、知识),组织层面的新workflow和process、以及更广义的diffusion。2026会是个高能量的一年:整个行业都在消化(metabolize)这套新能力。