在这个圈子里,Hermes Agent 作为一款纯 Python 的开源项目,居然在针对真实 CLI 任务的 11 项基准测试中,把 Codex 给斩落马下了,而且还打出了 6:5 的总战绩。可惜在这之前,由于一些性能瓶颈,Hermes 对 Codex 的战绩曾经是 5:6 落后,难道咱就不争这口气了吗?
所以在 2026 年 2 月 25 日上线的最新优化里,团队狠狠地打磨了启动性能和架构细节,Hermes 就翻盘了 Codex 那过度工程化的老底。和闭源的 Codex 比,你是不是还在迷信语言原生速度呢?究竟什么样的架构才是 Agent 的王道?咱们 Python 的 Hermes 就直接打脸了那些唱衰者!
启动时间和磁盘缓存的优化:效果果然炸裂!Hermes 直接把启动耗时从 701 毫秒砍到 258 毫秒,降幅高达 63%。从设计之初就认准了这条路,Hermes 之所以能够做到这么生猛,就是因为它在乎的是实实在在的迭代效率,而不是单纯的执行速度。经过一系列骚操作,比如 Bitwarden 的 L2 磁盘缓存、模型目录的懒加载,以及配置文件去重,整体框架开销被压得极低。
Hermes 的中位框架开销已经和 Codex 持平甚至略低,而且,在包含 5 轮对话的多轮任务里,总开销优势还在扩大。这东西就是为进化而生的。
你瞧,Hermes 能把启动时间降得这么狠,团队对那套“一次大字典加载”的脏活累活全都做了重构。并且他们连最细微的重复读取都给撸掉了,可以火速拆解并复用那些自主提炼的技能。
由于 LLM 调用延迟远高于框架能挤出的优化空间,Hermes 并不会因为 Python 而卡脖子。别看 Codex 的那个技术栈好像很重,它过度依赖上下文缓存的工程化方案,Hermes 反倒不会掉进陷阱,它的闭环学习机制天生就是为了避免重复造轮子。
不过话说回来,Hermes 也有让人大开眼界的创新。
每个积累 20 个以上自创技能的实例都可以实现 40% 的速度提升,而且团队还整了个 v0.12 的自治 Curator,在后台自动评分、修剪、合并技能库,不会让技能库沦为杂乱无章的垃圾堆。无论是 Python 还是 Rust 的铁杆争论,可编辑性和迭代速度的关键,直到把实际效果摆在桌面上,才会被那些“语言原教旨主义者”所正视。
单轮任务和多轮任务:Hermes 很能打,可惜还得继续让那些质疑 Python 的人闭嘴。扒完这些硬核的性能优化,我们再来看看架构决策背后的思想。在开发者友好度方面,Hermes 踩死了那条只看执行速度的歪路,它选择了可编辑性与快速迭代,并且拥抱了 PEP 562 这种天赐的模块级懒加载,间接干掉了启动时的无谓消耗,完美规避了 Rust 迁移会阻碍实时编辑和迭代的坑。
说得再直白点,Hermes 还可以灵活编排那些早已训练好的技能库,并且还直接调用了 Bitwarden 的 L2 缓存,完成了安全凭据的高效复用。在日活 Token 消耗量达到 353B 的恐怖规模下,这一切都可以丝滑运转。甚至连开源社区的 16.7 万星标也都投了信任票。
如果闭源的 Codex 能够早点想明白架构优先的道理,那么它就不会被后来者这样按在地上摩擦!
总之,Hermes 的胜利不是语言的胜利,Codex 擅长堆砌重量级工程,Hermes 的闭环学习机制却让轻量级方案越跑越快,这正是架构决策碾压语言速度的血淋淋案例。
相比之下,Codex 那套在上下文处理上可能过度设计的方案,正是它后劲不足的根源,团队也不太愿意把它彻底重构为进化型架构,也不愿意卸下那些积重难返的缓存包袱。究竟谁才是 Agent 赛道的主宰?实战数据说话,Python 和开源也能锤爆闭源!经过这一仗,究竟什么才叫真正的性能呢?
如果从进化的长远视角来观察这场胜负,那么 Hermes 无疑是踩准了未来的脉搏。因为它的架构天然支持持续进化,并且会反哺出越来越恐怖的自创技能。咱自家的数据足足摆在这里,Hermes 这波反超,你细品,不愧是开源阵营的硬核答案!但如果从单一语言的运行峰值看,闭源的那一套其实更容易堆料。
毕竟 Codex 依赖庞大的预计算与缓存体系,也擅长把压力转嫁给底层优化。虽然尚不完善,并且遗留了过度工程化的历史包袱,但 Codex 的那套理念也为行业绘制了早期的高阶范式。大家才会对未来的路线如此较真。Hermes 非常务实,它之所以能够逆袭,靠的是框架里流淌的进化基因,并不是一上来就追求极致的原生速度。
Python 虽然也很猛,但最终还是在架构选择上吃到了红利。落地在真实场景中,Hermes 确实不是刹不住车的蛮牛!那你觉得究竟谁能笑到最后呢?