代码泄露!DeepSeek V4原型意外曝光
512维回归+Sparse MLA黑科技,AI推理效率或暴增3倍
🔥神秘现身:GitHub代码库更新惊现Model 1分支,与V3.2并列架构疑似V4原型
🔥技术革新:注意力头维度从576精简至512,标准化设计提升GPU计算效率
🔥稀疏推理:Token-level Sparse MLA智能跳过冗余计算,长文本处理速度翻倍
🔥新机制亮相:VVPA强化位置感知,Engram模块优化记忆存储与缓存管理
🔥硬件适配:全面兼容NVIDIA Blackwell架构,Blackwell GPU理论算力达350 TFlops