DeepSeek 的速度,似乎比我们要想象得更快。
就在全网还在为 DeepSeek-V3 的性价比和 MLA(Multi-Head Latent Attention)架构惊叹时,其官方开源的高性能推理库 FlashMLA在最近的一次 Commit 中,悄然透露了下一代模型的蛛丝马迹。
我们在 FlashMLA的代码注释中发现了名为 "MODEL1"的全新代号,以及针对 NVIDIA 下一代 Blackwell (SM100)架构的底层优化。
这些改动不仅仅是简单的版本号更迭,更暗示了 DeepSeek 在模型架构上的一系列重大调整。以下是基于代码细节的深度拆解。
1. 神秘的 "MODEL1":不仅是微调,而是架构变动
在最新的代码提交中,开发者明确区分了现有的 V3 系列与一个新的 "MODEL1"。最核心的证据在于 KV Cache(键值缓存)维度的变化:
代码注释原文:
For DeepSeek V3... head_dim should be 576...
For DeepSeek MODEL1: head_dim should be 512...
这意味着什么?
DeepSeek-V3 的标志性特征之一是其 MLA 架构,其 KV 向量通常由 512 维的压缩潜变量 + 64 维的 RoPE(旋转位置编码)组成,合计 576 维。
而 "MODEL1" 将 head_dim回归到了标准的 512 维。
这极其可能暗示了以下两种方向之一:
RoPE 的融合或移除:新模型可能改变了位置编码的注入方式,不再需要额外的 64 维显式存储 RoPE 部分。
更极致的压缩:DeepSeek 团队可能找到了在不牺牲精度的情况下,进一步压缩 MLA 表达能力的方法。
2. 显存效率再提升 12%
对于大模型推理而言,显存带宽和容量是最大的瓶颈。代码中关于 Stride(步幅/内存布局)的描述暴露了新模型的巨大优势:
结论:新模型的 KV Cache 显存占用减少了约 12%。
在超长上下文(Long Context)场景下,这意味着在同样的显卡上,MODEL1 可以支持更长的上下文窗口,或者在同样的并发下吞吐量更大。这完全符合 DeepSeek 一贯追求“极致推理成本”的技术路线。
3. 首发适配 NVIDIA Blackwell (SM100)
代码中出现了一条极具前瞻性的注释:
The KV cache must be contiguously valid for sparse attention on sm100.
sm100正是 NVIDIA 下一代旗舰架构 Blackwell (B100/B200)的计算能力代号。
目前市面上 B200 尚未大规模普及,而 DeepSeek 已经在底层 Kernel 级别针对 SM100 的稀疏注意力(Sparse Attention)进行了连续内存布局的强制约束。这释放了两个信号:
DeepSeek 内部可能已经拿到了 Blackwell 硬件进行测试。
新模型是为下一代算力平台量身定制的,准备在算力爆炸的 B200 时代进一步扩大推理优势。
4. "Extra" Cache:引入新的记忆机制?
代码中还新增了一个参数:extra_k_cache,并明确指出这是 "used to support MODEL1"。
在标准的 Transformer 推理中,通常只需要维护一份 KV Cache。引入“额外的 KV Cache”通常意味着模型引入了更复杂的注意力机制,例如:
总结:DeepSeek V4 还是 V3.5?
从 FlashMLA的这次更新来看,DeepSeek 的新模型(无论是叫 V3.5、V4 还是 MODEL1)已经完成了结构定型,甚至可能已经完成了训练,目前正处于推理引擎适配的最后阶段。
新模型的画像已经浮现:
按照 DeepSeek 团队“代码先行,模型紧随”的硬核风格,也许我们不需要等太久,就能看到这一新模型的正式发布。
参考链接:DeepSeek-AI/FlashMLA Commit