GPT-5.2:7天构建可运行浏览器,代码超300万行
大家好,我是阿锋,一直蹲守 AI 技术和编程领域的动态,最近刷到 Cursor CEO 发起的一个 AI 编程挑战,真的被惊到了,赶紧来跟大家唠唠这事儿。Cursor 的 CEO Michael Truell,最近搞了个特别大胆的挑战 —— 让 GPT-5.2 不间断地写代码,这场 “极限压力测试”,一搞就搞了整整 7 天,没停过。最后结果咋样?GPT-5.2 硬生生写了超过 300 万行代码,建了几千个文件,还执行了数万亿个 token。最让人意外的是,它居然从零开始,搭出了一个能正常运行的全新浏览器,简单网页都能快速、准确地渲染出来。据说这个浏览器,能解析 HTML、布局 CSS、渲染文本,更厉害的是,它还有一个自己研发的 JavaScript 虚拟机,可不是那种半成品哦。跟咱们平时用的传统 AI 编程工具比,GPT-5.2 的连续工作能力真的拉满了。像 Github Copilot,大多是一问一答的模式,对话长短、任务复杂程度都有限制;就算是 Agentic 编程工具,比之前进步不少,但任务时长也大多就几分钟、几小时,撑不了太久。不同模型处理长任务的能力,差别可太大了。早期的 GPT-3.5 上下文窗口小,很容易 “忘事”;Claude 3 有 200K 上下文窗口,GPT-4 Turbo 能到 128K,Gemini 1.5 Pro 更是号称支持 100 万 token。但说实话,模型处理长任务时的一致性、专注度和执行力,才是最核心的 —— 实验看得出来,GPT-5.2 能长时间自己干活,指令执行得又准又稳,跟那种经验丰富的高级工程师差不多。其实多智能体系统,才是完成这个壮举的关键。一开始,Cursor 团队试着让所有 Agent 平等协作,结果出了锁持有问题,效率直接掉下来了。后来他们换了分层架构,才算搞定:规划者:专门管高层决策和任务创建,定大方向;
执行者:不瞎想,专心搞定具体的代码实现;
评审 Agent:就是个 “质检官”,专门把控质量关。
就靠这套架构,上百个 Agent 能在同一个代码库上协同干活好几周,而且几乎没出现过代码冲突,这效率是真的顶。大家可能不知道,开发浏览器的难度可不小。CSS 标准里有很多历史遗留的坑,想做出完美的 CSS 引擎,难度差不多相当于要随心所欲改变物理法则;JavaScript 虚拟机还得处理内存管理、垃圾回收、安全沙箱这些麻烦事;更别说他们选了 Rust 语言,还得应对编译器严苛的借用检查。GPT-5.2 能在 7 天内搞定这些难题,它的架构掌控能力,是真的厉害。这次实验最亮眼的地方,其实是 AI 的 “自主闭环” 能力。写代码的时候要是出了 Bug,GPT-5.2 自己就能读错误日志、调试、重构,然后接着干活,不用人插手。这意味着啥?AI 正在从咱们平时聊聊天的 “伴侣”,变成能实打实干活的 “数字劳工”,软件开发的边际成本,说不定也会慢慢趋近于零。以前搞软件开发,得投大量的人力、耗大把的时间;而 AI 来做,可能只需要花点 token 的费用。未来的软件开发,或许真的会变成 —— 咱们人类说清楚自己要啥,AI 就自动把它实现出来的模式,想想就觉得不可思议。需要我把GPT-5.2 的分层 Agent 架构,拆成更易懂的通俗解释,方便你快速搞懂它的协作逻辑吗?