告别Python堆栈:Atlas用纯Rust重写LLM推理,在GB10上跑赢vLLM
如果你用过vLLM、TGI或者任何基于Python的推理引擎,大概率体验过这么一种循环:今天跑通了一个模型,明天依赖某个pyproject的nightly分支翻车了;这个月刚适配的量化kernel,下个月因为torch版本冲突炸了。数据科学家在快速验证想法时建立起来的poly codebase,到了工程化阶段就成了沉重的包袱。
Atlas这个项目想做的,就是用纯Rust、干净的抽象层和编译时确定的内核选择,把“推理引擎”这件事从“Python科研原型”的状态推向“工程产品”的范畴。它的目标不是再搞一个通用框架,而是严丝合缝地针对NVIDIA GB10(DGX Spark)这一款芯片,在35B model上推到了130+ tok/s,并且公开的benchmark宣称在MTP推测解码下比NVIDIA自己优化的vLLM跑得更快。这个性能背后不是魔法,是手写的CUDA kernel、精心设计的KV cache量化和一套让人眼前一亮的调试工具链。
为什么是纯Rust + 单仓库
材料里直接点出了一个痛点:很多Python推理引擎的代码是“a poly codebase with an ever shifting ecosystem of dependencies, patches, and cross-dependencies”。你为了跑一个模型搞出的workarounds,可能因为torch或transformers的某个PR就失效了。数据科学家的职责是快速验证,工程化是另一码事。Atlas的哲学很直接:软件工程不应该依赖“今天能用明天可能就不行”的依赖链。
所以选择纯Rust显得顺理成章。没有GIL,没有Python runtime的开销,并且通过cargo workspace下的单仓库(monorepo)管理所有15个crate。单仓库的好处是,当你要做层次间的重构时,编译器能帮你查漏补缺——一个类型改了,所有依赖它的地方会直接报错,而不需要等到运行时才发现。
另一个有意思的选择是AI-friendly codebase。项目明确说欢迎AI生成的PR,并且在AGENTS.md里写了一套完整的规范来引导agent贡献代码。这不是噱头——他们真的在代码里留了trait边界和注释锚点,让LLM能理解整个架构。这种做法反映了一个务实的态度:未来模型和硬件会越来越多,靠人手维护所有target不现实,不如把扩展能力交给AI。
七层插件抽象,不是另一个框架,而是硬件+模型级别的定制
Atlas的架构设计围绕一个核心思想:不做通用抽象,而是为每对(硬件, 模型, 量化)生成专用kernel。但为了管理这种细粒度的定制,他们做了7个plugin point,每个都是一个Rust trait或者文件系统约定。从上层往下看:
• trait Model:完整的模型前传抽象。实际上很少需要实现它,因为现有的TransformerModel通过组合层(attention, SSM, MoE, FFN)已经覆盖大部分架构。
• trait ModelWeightLoader:从HuggingFace格式到内部layer的权重映射。这是添加新模型时最需要动手的地方——实现一个struct,把checkpoint里的weight name跟内部结构对准。材料里提到factory.rs加一个match arm就行。
• trait TransformerLayer:每个层的计算(attn/SSM/MoE/FFN)。可以组合现有层类型,或者为全新架构实现一个新的。
• trait GpuBackend:GPU的后端抽象。目前只有CUDA实现,但这个trait是为AMD ROCm、Apple Metal预留的。写法是trait-based,所以上层完全不知道下层是什么GPU。
• kernels/<hw>/<model>/<quant>/:这是最具体的层次,硬件+模型+量化定向调优的CUDA kernel。在编译时自动发现,不参与运行时抽象——这是一个文件系统约定,通过build.rs扫描目录来生成PTX二进制。
• trait CommBackend:多GPU通信的抽象,比如NCCL all-reduce。目前用于EP(expert parallelism)场景。
• trait StorageBackend:KV cache offload的存储抽象,比如io_uring驱动的NVMe swap。
这种分层的好处是,每一层的改动不会传播到其他层。举个具体的例子:要添加一个新的硬件target(比如AMD GPU),你需要做的是实现ComputeTarget(构建时编译器配置)和GpuBackend(运行时驱动),然后往kernels/<your-hw>/里丢CUDA kernel。而且他们提供了一个MockGpuBackend,可以在没有真实GPU时写完并测试整个scaffold。单元测试可以在笔记本上跑,只依赖Rust。
添加新模型更轻量:实现ModelWeightLoader,用现有layer类型组合(attention/MoE/SSM等),加一行到factory dispatch,optional加一个MODEL.toml配置采样默认值。kernel复用,scheduler不动,server也不感知。
这个设计真正有意思的地方是,它把“通用”和“专用”之间的平衡点找到了——上层是稳定的trait和业务逻辑,但底层的kernel是定向到具体硬件+模型组合的。不做无谓的多态,该硬编码时就硬编码。
编译时内核选择和W4A16 Grouped GEMM
大多数推理引擎在运行时根据模型硬件选择kernel(比如通过CUDA graph或者runtime dispatch)。Atlas的做法更激进:在编译时就决定哪些kernel被编译进去,并且把这些kernel的PTX字节嵌入到最终的二进制中。它通过三个环境变量来控制:
• ATLAS_TARGET_HW=gb10
• ATLAS_TARGET_MODEL=qwen3.6-35b-a3b
• ATLAS_TARGET_QUANT=nvfp4
也可以都用*通配符,编译所有target。build.rs(约915行)扫描kernels/<hw>/<model>/<quant>/目录,为每个tuple编译对应的.cu文件,生成target_ptx.rs,里面是静态PTX字节数组。运行时根据model的config.json选择对应的target。
这种做法的好处很直接:没有运行时编译的开销,没有动态加载PTX的延迟(首次加载约168ms通过OnceLock缓存),二进制大小可控(只包含目标硬件的kernel)。缺点也很明显:要预先知道硬件和模型组合,不支持运行时动态添加新硬件。
在kernel优化方面,材料里最具启发性的案例是MoE的W4A16组Gemm。Qwen3-Next-80B有256个专家,gate_up和down两个投影。常见的做法是在Python循环里对每个专家分别调用cuBLAS,或者用一个persistent kernel。Atlas评测了5种方案,最终胜出的是3D网格启动:grid维度是(ceil(N/64), max_m_tiles, num_experts),每个CTA tile负责一个专家的一个计算块。单次kernel launch覆盖所有专家,利用GPU硬件调度器(CTA scheduler)自动分配work,避免原子队列的竞争。
在Qwen3-Next形状(800 tokens, 256 experts)上,这个kernel比cuBLAS per-expert快1.28倍(5.58ms vs 7.14ms),而且内存占用只有BF16的1/3.6(302MB vs 1611MB)。注意这里比的不是绝对速度,而是端到端的MoE层延迟,因为单次launch省去了256次launch dispatch和Python overthead。
另外一个值得注意的细节:SM121(GB10)不支持原生FP4 MMA(kind::f8f6f4),所以他们只能用W4A16路径——加载packed FP4 weight,在shared memory里dequant到BF16,然后走BF16 MMA。这是一个典型的硬件限制下的妥协做法,但他们把dequant和GEMM融合在一个kernel里,避免了中间BF16写回。
KV Cache量化、MTP推测解码和调试工具链
KV cache量化方面,Atlas支持6个级别:bf16、fp8、nvfp4、turbo8、turbo4、turbo3。它们不是单纯的位宽下降,而是用了不同的旋转和码本技术:
• turbo8:加Walsh-Hadamard旋转,再FP8 E4M3量化,加per-group BF16 scale。注意scale用BF16而非FP8,这是针对MiniMax M2.7这样有58层turb8层的模型,FP8 scale的累积误差会导致输出变成乱码,升级到BF16 scale后恢复正常。代价是额外~6%的cache内存。
• turbo4:WHT旋转 + Lloyd-Max最优4-bit码本,比NVFP4的E2M1方案MSE低约2倍。
• turbo3:3-bit + Lloyd-Max,再压缩22%。
实际用的时候可以用--kv-high-precision-layers auto让系统自动把首尾几层保持BF16,中间用低位宽——这个heuristic基于MoE路由分布的敏感性。
MTP推测解码方面,Atlas使用MTP(Multi-Token Prediction)draft head,K=2时Qwen3.5-35B-A3B达到131 tok/s。关键设计是draft head保持BF16精度而不是NVFP4——损失一点draft forward的速度但获得更高的接受率,最终端到端吞吐更高。另外,当模型权重和KV cache填满内存时,可以关闭speculative来换取更大的context window(如122B模型单卡只能跑16K)。
调试工具链是材料里让我比较欣赏的部分。他们设计了一套环境变量控制的诊断dump,可以在不重新编译的情况下打开详细的MoE路由信息:
• ATLAS_DUMP_EXPERT_IDS=1会在每个MoE层输出:gate输入范数、gate logits top-10、expert IDs、routed-only输出、shared expert输出等。
• 配合ATLAS_FP8_MOE_COALESCED=0可以强制切换到v1 kernel来对比。
• 他们有一套三步骤debug方法论:构建HF参考oracle(single-precision forward)→用ATLAS_DUMP_EXPERT_IDS=1跑Atlas→per-layer comparator脚本对比范数比和top-K重叠。
这个方法真正有效——材料提到他们用这个流程找到了三个叠加的MoE bug(v1 grouped-GEMM数值问题、缺失zero-init、broken max_m_tiles heuristic),修复后所有40层与HF baseline的偏离都落在[0.977, 1.021]的量化噪声水平内。
这个工具链的价值在于:你不需要猜测质量问题是不是kernel精度导致的;直接dump出每个层的数值分布,定位第一个偏离的层,然后开始钻。对于长期运行中出现的质量退化,这种工具比黑盒调参有效得多。
总结:不是万能银弹,但方向对了
Atlas目前只支持NVIDIA GB10一款硬件,12个(HW, model, quant)组合,性能数据也只在这一个平台上验证。它可以打败该平台上的vLLM,但这不是说Atlas通用性更好;恰恰相反,这是极端定向优化的胜利。如果你需要在一台DGX Spark上跑Qwen/Nemotron/Gemma/Mistral这类模型,并且追求每一瓦的性能,Atlas是目前最激进的方案。
从架构角度看,它的设计理念值得借鉴:用编译时决定kernel选择,用明确的trait边界隔离变化,用单仓库和AI-friendly规范鼓励社区贡献。把推理引擎从“数据科学家跑实验的工具”变成“软件工程师可以信任的运行时”这个目标,Atlas迈出了一大步。
但也要看到它的局限性:多硬件支持仍停留在trait层面(只有Mock),跨GPU通信只有NCCL一个实现,Gemma-4 31B dense模型在GB10上只能跑9 tok/s(说明对dense大模型仍有压力)。另外,AGPLv3 license意味着如果你要在商业产品中使用,需要买Enterprise Edition。
不过如果你单纯想在一台GB10上获得最佳推理性能,并且对Rust+CUDA的实现感兴趣,Atlas的开源代码值得一读。特别是kernels目录下的CUDA源码和crates/atlas-kernels/build.rs,能看到一个工程团队如何为单硬件深度优化。
原始链接
• GitHub 仓库: https://github.com/Avarok-Cybersecurity/atlas
• 项目主页: https://atlasinference.io