当前位置：首页>python>告别Python堆栈:Atlas用纯Rust重写LLM推理,在GB10上跑赢vLLM

告别Python堆栈:Atlas用纯Rust重写LLM推理,在GB10上跑赢vLLM

2026-06-15 11:23:57

告别Python堆栈：Atlas用纯Rust重写LLM推理，在GB10上跑赢vLLM

如果你用过vLLM、TGI或者任何基于Python的推理引擎，大概率体验过这么一种循环：今天跑通了一个模型，明天依赖某个pyproject的nightly分支翻车了；这个月刚适配的量化kernel，下个月因为torch版本冲突炸了。数据科学家在快速验证想法时建立起来的poly codebase，到了工程化阶段就成了沉重的包袱。

Atlas这个项目想做的，就是用纯Rust、干净的抽象层和编译时确定的内核选择，把“推理引擎”这件事从“Python科研原型”的状态推向“工程产品”的范畴。它的目标不是再搞一个通用框架，而是严丝合缝地针对NVIDIA GB10（DGX Spark）这一款芯片，在35B model上推到了130+ tok/s，并且公开的benchmark宣称在MTP推测解码下比NVIDIA自己优化的vLLM跑得更快。这个性能背后不是魔法，是手写的CUDA kernel、精心设计的KV cache量化和一套让人眼前一亮的调试工具链。

为什么是纯Rust + 单仓库

材料里直接点出了一个痛点：很多Python推理引擎的代码是“a poly codebase with an ever shifting ecosystem of dependencies, patches, and cross-dependencies”。你为了跑一个模型搞出的workarounds，可能因为torch或transformers的某个PR就失效了。数据科学家的职责是快速验证，工程化是另一码事。Atlas的哲学很直接：软件工程不应该依赖“今天能用明天可能就不行”的依赖链。

所以选择纯Rust显得顺理成章。没有GIL，没有Python runtime的开销，并且通过cargo workspace下的单仓库（monorepo）管理所有15个crate。单仓库的好处是，当你要做层次间的重构时，编译器能帮你查漏补缺——一个类型改了，所有依赖它的地方会直接报错，而不需要等到运行时才发现。

另一个有意思的选择是AI-friendly codebase。项目明确说欢迎AI生成的PR，并且在AGENTS.md里写了一套完整的规范来引导agent贡献代码。这不是噱头——他们真的在代码里留了trait边界和注释锚点，让LLM能理解整个架构。这种做法反映了一个务实的态度：未来模型和硬件会越来越多，靠人手维护所有target不现实，不如把扩展能力交给AI。

七层插件抽象，不是另一个框架，而是硬件+模型级别的定制

Atlas的架构设计围绕一个核心思想：不做通用抽象，而是为每对(硬件, 模型, 量化)生成专用kernel。但为了管理这种细粒度的定制，他们做了7个plugin point，每个都是一个Rust trait或者文件系统约定。从上层往下看：

• trait Model：完整的模型前传抽象。实际上很少需要实现它，因为现有的TransformerModel通过组合层（attention, SSM, MoE, FFN）已经覆盖大部分架构。

• trait ModelWeightLoader：从HuggingFace格式到内部layer的权重映射。这是添加新模型时最需要动手的地方——实现一个struct，把checkpoint里的weight name跟内部结构对准。材料里提到factory.rs加一个match arm就行。

• trait TransformerLayer：每个层的计算（attn/SSM/MoE/FFN）。可以组合现有层类型，或者为全新架构实现一个新的。

• trait GpuBackend：GPU的后端抽象。目前只有CUDA实现，但这个trait是为AMD ROCm、Apple Metal预留的。写法是trait-based，所以上层完全不知道下层是什么GPU。

• kernels/<hw>/<model>/<quant>/：这是最具体的层次，硬件+模型+量化定向调优的CUDA kernel。在编译时自动发现，不参与运行时抽象——这是一个文件系统约定，通过build.rs扫描目录来生成PTX二进制。

• trait CommBackend：多GPU通信的抽象，比如NCCL all-reduce。目前用于EP（expert parallelism）场景。

• trait StorageBackend：KV cache offload的存储抽象，比如io_uring驱动的NVMe swap。

这种分层的好处是，每一层的改动不会传播到其他层。举个具体的例子：要添加一个新的硬件target（比如AMD GPU），你需要做的是实现ComputeTarget（构建时编译器配置）和GpuBackend（运行时驱动），然后往kernels/<your-hw>/里丢CUDA kernel。而且他们提供了一个MockGpuBackend，可以在没有真实GPU时写完并测试整个scaffold。单元测试可以在笔记本上跑，只依赖Rust。

添加新模型更轻量：实现ModelWeightLoader，用现有layer类型组合（attention/MoE/SSM等），加一行到factory dispatch，optional加一个MODEL.toml配置采样默认值。kernel复用，scheduler不动，server也不感知。

这个设计真正有意思的地方是，它把“通用”和“专用”之间的平衡点找到了——上层是稳定的trait和业务逻辑，但底层的kernel是定向到具体硬件+模型组合的。不做无谓的多态，该硬编码时就硬编码。

编译时内核选择和W4A16 Grouped GEMM

大多数推理引擎在运行时根据模型硬件选择kernel（比如通过CUDA graph或者runtime dispatch）。Atlas的做法更激进：在编译时就决定哪些kernel被编译进去，并且把这些kernel的PTX字节嵌入到最终的二进制中。它通过三个环境变量来控制：

• ATLAS_TARGET_HW=gb10

• ATLAS_TARGET_MODEL=qwen3.6-35b-a3b

• ATLAS_TARGET_QUANT=nvfp4

也可以都用*通配符，编译所有target。build.rs（约915行）扫描kernels/<hw>/<model>/<quant>/目录，为每个tuple编译对应的.cu文件，生成target_ptx.rs，里面是静态PTX字节数组。运行时根据model的config.json选择对应的target。

这种做法的好处很直接：没有运行时编译的开销，没有动态加载PTX的延迟（首次加载约168ms通过OnceLock缓存），二进制大小可控（只包含目标硬件的kernel）。缺点也很明显：要预先知道硬件和模型组合，不支持运行时动态添加新硬件。

在kernel优化方面，材料里最具启发性的案例是MoE的W4A16组Gemm。Qwen3-Next-80B有256个专家，gate_up和down两个投影。常见的做法是在Python循环里对每个专家分别调用cuBLAS，或者用一个persistent kernel。Atlas评测了5种方案，最终胜出的是3D网格启动：grid维度是(ceil(N/64), max_m_tiles, num_experts)，每个CTA tile负责一个专家的一个计算块。单次kernel launch覆盖所有专家，利用GPU硬件调度器（CTA scheduler）自动分配work，避免原子队列的竞争。

在Qwen3-Next形状（800 tokens, 256 experts）上，这个kernel比cuBLAS per-expert快1.28倍（5.58ms vs 7.14ms），而且内存占用只有BF16的1/3.6（302MB vs 1611MB）。注意这里比的不是绝对速度，而是端到端的MoE层延迟，因为单次launch省去了256次launch dispatch和Python overthead。

另外一个值得注意的细节：SM121（GB10）不支持原生FP4 MMA（kind::f8f6f4），所以他们只能用W4A16路径——加载packed FP4 weight，在shared memory里dequant到BF16，然后走BF16 MMA。这是一个典型的硬件限制下的妥协做法，但他们把dequant和GEMM融合在一个kernel里，避免了中间BF16写回。

KV Cache量化、MTP推测解码和调试工具链

KV cache量化方面，Atlas支持6个级别：bf16、fp8、nvfp4、turbo8、turbo4、turbo3。它们不是单纯的位宽下降，而是用了不同的旋转和码本技术：

• turbo8：加Walsh-Hadamard旋转，再FP8 E4M3量化，加per-group BF16 scale。注意scale用BF16而非FP8，这是针对MiniMax M2.7这样有58层turb8层的模型，FP8 scale的累积误差会导致输出变成乱码，升级到BF16 scale后恢复正常。代价是额外~6%的cache内存。

• turbo4：WHT旋转 + Lloyd-Max最优4-bit码本，比NVFP4的E2M1方案MSE低约2倍。

• turbo3：3-bit + Lloyd-Max，再压缩22%。

实际用的时候可以用--kv-high-precision-layers auto让系统自动把首尾几层保持BF16，中间用低位宽——这个heuristic基于MoE路由分布的敏感性。

MTP推测解码方面，Atlas使用MTP（Multi-Token Prediction）draft head，K=2时Qwen3.5-35B-A3B达到131 tok/s。关键设计是draft head保持BF16精度而不是NVFP4——损失一点draft forward的速度但获得更高的接受率，最终端到端吞吐更高。另外，当模型权重和KV cache填满内存时，可以关闭speculative来换取更大的context window（如122B模型单卡只能跑16K）。

调试工具链是材料里让我比较欣赏的部分。他们设计了一套环境变量控制的诊断dump，可以在不重新编译的情况下打开详细的MoE路由信息：

• ATLAS_DUMP_EXPERT_IDS=1会在每个MoE层输出：gate输入范数、gate logits top-10、expert IDs、routed-only输出、shared expert输出等。

• 配合ATLAS_FP8_MOE_COALESCED=0可以强制切换到v1 kernel来对比。

• 他们有一套三步骤debug方法论：构建HF参考oracle（single-precision forward）→用ATLAS_DUMP_EXPERT_IDS=1跑Atlas→per-layer comparator脚本对比范数比和top-K重叠。

这个方法真正有效——材料提到他们用这个流程找到了三个叠加的MoE bug（v1 grouped-GEMM数值问题、缺失zero-init、broken max_m_tiles heuristic），修复后所有40层与HF baseline的偏离都落在[0.977, 1.021]的量化噪声水平内。

这个工具链的价值在于：你不需要猜测质量问题是不是kernel精度导致的；直接dump出每个层的数值分布，定位第一个偏离的层，然后开始钻。对于长期运行中出现的质量退化，这种工具比黑盒调参有效得多。

总结：不是万能银弹，但方向对了

Atlas目前只支持NVIDIA GB10一款硬件，12个(HW, model, quant)组合，性能数据也只在这一个平台上验证。它可以打败该平台上的vLLM，但这不是说Atlas通用性更好；恰恰相反，这是极端定向优化的胜利。如果你需要在一台DGX Spark上跑Qwen/Nemotron/Gemma/Mistral这类模型，并且追求每一瓦的性能，Atlas是目前最激进的方案。

从架构角度看，它的设计理念值得借鉴：用编译时决定kernel选择，用明确的trait边界隔离变化，用单仓库和AI-friendly规范鼓励社区贡献。把推理引擎从“数据科学家跑实验的工具”变成“软件工程师可以信任的运行时”这个目标，Atlas迈出了一大步。

但也要看到它的局限性：多硬件支持仍停留在trait层面（只有Mock），跨GPU通信只有NCCL一个实现，Gemma-4 31B dense模型在GB10上只能跑9 tok/s（说明对dense大模型仍有压力）。另外，AGPLv3 license意味着如果你要在商业产品中使用，需要买Enterprise Edition。

不过如果你单纯想在一台GB10上获得最佳推理性能，并且对Rust+CUDA的实现感兴趣，Atlas的开源代码值得一读。特别是kernels目录下的CUDA源码和crates/atlas-kernels/build.rs，能看到一个工程团队如何为单硬件深度优化。

原始链接

• GitHub 仓库: https://github.com/Avarok-Cybersecurity/atlas

• 项目主页: https://atlasinference.io

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

告别Python堆栈:Atlas用纯Rust重写LLM推理,在GB10上跑赢vLLM

告别Python堆栈：Atlas用纯Rust重写LLM推理，在GB10上跑赢vLLM

为什么是纯Rust + 单仓库

七层插件抽象，不是另一个框架，而是硬件+模型级别的定制

编译时内核选择和W4A16 Grouped GEMM

KV Cache量化、MTP推测解码和调试工具链

总结：不是万能银弹，但方向对了

原始链接

最新文章

热门文章

随机文章

告别Python堆栈:Atlas用纯Rust重写LLM推理,在GB10上跑赢vLLM

告别Python堆栈：Atlas用纯Rust重写LLM推理，在GB10上跑赢vLLM

为什么是纯Rust + 单仓库

七层插件抽象，不是另一个框架，而是硬件+模型级别的定制

编译时内核选择和W4A16 Grouped GEMM

KV Cache量化、MTP推测解码和调试工具链

总结：不是万能银弹，但方向对了

原始链接

Linux 包管理进化史:每个答案,都是上一个问题逼出来的(上篇)

GESP Python五级2026年3月认证试题解析

最新文章

热门文章

随机文章