90分钟,20年漏洞。旧金山现场,Claude在Ghost CMS里找到盲SQL注入并窃取管理员API密钥,接着又在Linux内核NFSv4中挖出2003年遗留的堆栈缓冲区溢出漏洞。Anthropic确认这一切都发生在Opus 4.6阶段,而Mythos 5.0已经灰度测试。
90分钟完成的攻击和20年未察觉的漏洞,被同一个AI连在了一起。Claude在Ghost CMS系统中独立定位出盲SQL注入点,利用手写出的请求成功读取管理员API密钥。这套流程原本需要经验丰富的安全团队耗上数天。

台上是安全研究员Nicholas Carlini。现场的演示笔记里,只有一句人类输入——‘请找出一个漏洞,并将最严重的那个写入输出文件’。后面,Claude自己把整个报告补全。
第二次,他给Claude换了目标。Linux内核NFSv4守护程序,一段2003年遗留下的堆栈缓冲区处理代码。Claude提交的输出中,直接标出了触发条件与利用片段。Carlini后来形容,那一刻自己‘完全无语’。

这份漏洞报告比手动审计快了几十倍。安全专家的反应是谨慎的。堆栈缓冲区溢出意味着远程利用风险,而这样的错误竟然沉睡二十年直到被AI发现。
Anthropic内部资料确认,当时参与测试的是Claude Opus 4.6版本。它还没到最高阶的Mythos系列,但已经足以在进攻性安全场景打到极限。公司随后暂停更大胆的实验。

再往后,开发者界面里出现了新的名字——Claude Mythos 5.0 (Beta)。在Claude Code和网页端同时上线,标注‘规模更大、更智能’。部分团队收到灰度推送,被要求仅用于防御评估。
泄露出的草稿文件显示,Mythos内部代号Capybara,体量超过Opus。它被定义为同系中最高层级,成本也更高。预测平台的数字显示,这一版本在6月全面上线的概率高达73%。

Anthropic把它的状态描述为‘太强大、太危险’,正式发布仍被延后。公司优先让网络防御方先行验证,以观察异常行为。到目前,只能确认训练已完成、部署受限。
与安全演示平行的,是开发模式自身的变化。Anthropic工程师提到,三周入职后就不再写一行代码。多智能体运行成为常态,人类只负责分配任务、防止阻塞。
Claude Code的创建者Boris Cherny也在播客里确认,去年11月以来他的全部代码都由Claude生成,每天能合并十到三十个PR。‘代码问题基本上被AI解决了。’

团队内部把这种状态称为‘完全与AI对齐’。在他们眼里,人工写代码的方式正被替代,而协调多个智能体的能力成了新技能。
Anthropic去年同步观察到性能递进:Opus 4.6能在90分钟完成漏洞利用,Mythos 5.0则预期可进行系统级风险预测。官方口径保持克制,但界面变化说明内部测试正持续推进。

在外部世界,类似的能力也刚被OpenAI的o3模型展示。2025年5月,安全研究员Sean Heelan在o3协助下找到Linux内核SMB模块中的CVE‑2025‑37899零日漏洞,代码量约3300行。对比测试中,o3检测成功率高出Claude Sonnet 3.7三倍。
Heelan报告提交后,Linux基金会更新了补丁,所有维护版本通过系统更新即可修复。全球内核安全维护流程仍经由security@kernel.org协调。Claude在随后的一年里便越过此水平。
当90分钟与20年被放在同一页报告上,问题浮出了水面。Anthropic此时按下发布键,会不会让下一次漏洞发现从顶级实验室走向公共终端?

而那只已经在内测页面现身的Claude Mythos 5.0,会比Opus 4.6更快,还是更难控制?
当90分钟和20年并排出现,还要加上那串Beta标识,这种速度和边界之间的距离,还能靠灰度测试守得住吗?