当前位置：首页>java>Andrej Karpathy:AI编程新纪元的前夜

Andrej Karpathy:AI编程新纪元的前夜

2026-07-02 13:47:31

全文翻译自Andrej的推特：https://x.com/karpathy/status/2015883857489522876?s=20
TLDR；我们现在在哪？LLM agent能力（尤其是Claude&Codex）在差不多2025年12月左右跨过了某种coherence阈值，于是对码农以及紧密相关领域造成了一个phase shift。突然之间，智力这一块看起来明显跑在其他一切前面：整合（工具、知识），组织层面的新workflow和process、以及更广义的diffusion。2026会是个高能量的一年：整个行业都在消化(metabolize)这套新能力。

最近几周用claude写了不少code，随手记几条。

编程工作流的变化

随着最近LLM代码能力的巨大提升，我和很多人一样，迅速从11月份80%的手动编码加自动补全和20%的智能Agent辅助，转变为12月份80%的智能Agent写代码，剩下20%的时间只做些编辑和收尾。换句话说，现在我基本是在用英语来编程。有点羞耻地用文字告诉LLM该写什么代码。。。这确实有点伤自尊，但能用大块的“代码行动（code actions）”去操控软件，尤其是当你慢慢适应它，配置好它，学会使用它，并真正理解了它能做什么，不能做什么之后，带来的净收益实在太大了。这是我差不多20年编程生涯里，基本工作流程发生的最大一次变化，而且是在短短几周内就完成的。

我估计现在有两位数百分比（double digit percent）的工程师已经在经历类似变化，但普通大众对这一变化的认知还停留在个位数百分比（low single digit percent）。

对IDE和Agent群组的过度期待以及模型的易错性

目前，无论是不再需要IDE还是agent swarm（智能体群组）的宣传，个人觉得都过于夸张，也过于提前了。模型依然频繁犯错，如果你对代码真正有所在意的话，我强烈建议你像鹰一样盯着旁边的IDE，仔细审查它们的输出。当然模型错误发生的类型也在变化：不再是简单的语法错误，而是更加隐秘的概念性错误，就像是一个稍微粗心，有点急躁的初级程序员犯的错误。

最常见的情况是，模型会替你做出错误的假设（assumptions），然后一路跑下去，不做任何检查。它们不善于管理自己的困惑（confusion），不会主动寻求澄清（clarifications），不会把矛盾（inconsistencies）暴露出来，也不会把利弊权衡（tradeoffs）摆到台面上，更不会在应该质疑你的时候质疑你，依然有点过度顺从（sycophantic）。虽然规划模式（plan mode）下情况好一点，但我们现在确实需要一种更轻量的内联规划模式（inline plan mode）。

它们还喜欢过度复杂化代码和API，abstractions越堆越厚，自己产生的无用代码（dead code）也不会清理。它们能给你造出上千行低效，臃肿且脆弱的结构，而你只需提醒一句：你就不能简单这么做吗？模型立刻会回答当然可以！随即把代码削减到一百行。。。

有时候，它们还会随手改动甚至删除自己“不喜欢”或者“没完全理解”的注释或代码，即使这些部分与当前任务完全无关。这些问题，在我尝试通过一些简单的CLAUDE.md文件中的指令修正之后，仍然存在。不过，尽管问题不少，整体上仍然是巨大的净提升，而且很难想象回到过去纯手写代码的时代。每个人都有自己的开发流程（developing flow），目前我的方案是：左侧在ghostty的窗口或标签里开几个Claude会话，右侧开IDE浏览代码，做手动编辑。

智能Agent的坚韧性

看Agent不知疲倦地去解决一个问题非常有意思。它们永远不会疲倦，也永远不会气馁，只会不停地尝试各种方案。很多时候，人类早就放弃，改天再战了。你看着它为某个问题挣扎了很久，结果30分钟后居然赢了，那种瞬间会让你强烈感觉到“通用人工智能（AGI）的气息”。这时你会突然意识到，工作效率的核心瓶颈其实是耐力（stamina），而有了LLMs之后，这个瓶颈被极大地提升了。

效率的提升

怎么量化LLM assistance带来的“speedup”其实不太清楚。当然我感觉自己做原本要做的事净速度快了不少，但更大的效应是：我做的事比原计划多得多，因为1）我能把各种以前根本不值得写的东西都写出来；2）我能去碰以前因为knowledge/skill issue而完全搞不动的code。所以上升的确是speedup，但可能更准确地说是expansion。

撬动效应（Leverage）

LLMs在“循环迭代直到满足明确目标”这件事上异常擅长，这也是大多数“feel the AGI”magic的来源。别告诉它怎么做，给它success criteria，然后看它自己跑。让它先写tests，再去pass它们。把它放进一个带browser MCP的loop里。先写一个很naive但大概率correct的algorithm，然后让它在preserving correctness的前提下去optimize。把你的思路从imperative（重要的）改成declarative（可陈述性的），让agents能loop更久，你就会获得更大的杠杆。

趣味性

我没预料到，跟agents一起programming反而更fun，因为大量填空式的苦差（drudgery）被拿走了，剩下的是创意部分。我也更少blocked/stuck（那真的不fun），而且更有courage，因为几乎总能找到一种方式跟它hand in hand地推进一点点正向进展。我也看到过不少人持相反观点；LLM coding大概率会把engineers分成两类：一类主要喜欢coding本身，另一类主要喜欢building。

能力的退化（Atrophy）

我已经注意到自己手写code的能力在慢慢退化。生成（写代码）和区分（读代码）在大脑里是两种不同能力。很大程度上因为programming里充满各种小而多的，主要是句法的（syntactic）细节，就算你写起来吃力，你review code依然可以做得很好。

大规模粗制滥造时代（Slopacolypse）

我在给2026做心理准备：它可能会成为所有digital media的slopacolypse——从github、substack、arxiv，到X/instagram，再到更广义的一切。我们也会看到更多AI炒作的效率中心（这真的还能更夸张吗？），当然与此同时我认为也有真正的实打实的提升。

几个脑子里挥之不去的问题：

第一个，“10X engineer”会发生什么？也就是平均(mean)工程师和最强(max)工程师之间的生产力比值。很可能这个差距会变得大很多。

第二个，有了LLM之后，通才会不会越来越压过专家？LLM在补“填空题”(micro)上很强，但在大方向的策略(macro)上没那么强。

第三个，未来LLM coding到底是什么体验？像在玩starcraft？玩factorio？还是像演奏音乐？

第四个，整个社会到底有多少被digital knowledge work卡着脖子？

TLDR；我们现在在哪？LLM agent能力（尤其是Claude&Codex）在差不多2025年12月左右跨过了某种coherence阈值，于是对码农以及紧密相关领域造成了一个phase shift。突然之间，智力这一块看起来明显跑在其他一切前面：整合（工具、知识），组织层面的新workflow和process、以及更广义的diffusion。2026会是个高能量的一年：整个行业都在消化(metabolize)这套新能力。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Andrej Karpathy:AI编程新纪元的前夜

最新文章

热门文章

随机文章

Andrej Karpathy:AI编程新纪元的前夜

为什么你用了一堆 AI 编程工具,却总是做不出自己想要的网站?

[IEEE Trans论文代码]- 打破割裂!深度强化学习统一新能源竞价与储能套利 / 误差补偿策略

最新文章

热门文章

随机文章