DeepSeek V4 核心架构代码意外曝光
在 DeepSeek-R1 发布一周年之际,开发者社区在 DeepSeek 的官方 GitHub 代码库中发现了代号为“MODEL1”的重大更新痕迹。根据泄露的代码逻辑,这一新模型作为独立分支存在,与现有的 V3 系列完全不同。代码片段显示,新架构引入了 512 维注意力头(Attention Heads)和混合精度稀疏计算机制,并针对 NVIDIA Blackwell GPU 进行了专门优化。市场普遍推测,这极有可能是即将于 2 月中旬发布的旗舰模型 DeepSeek V4 的技术预览版。
此次代码泄露揭示了 DeepSeek 在底层架构上的激进革新,而非简单的参数堆叠。新架构中对 KV Cache 布局的重构和稀疏处理机制的引入,意味着该模型试图在保持极低推理成本的同时,大幅提升处理复杂代码和长上下文任务的能力。 这种“算法效率优先”的策略若能成功落地,将进一步巩固其在开源领域的性价比优势,并可能迫使闭源巨头重新评估其算力投入产出比。此外,针对下一代 GPU 的优化表明,DeepSeek 正试图在硬件换代潮中抢占性能高地。
这一发现迅速在技术社区引发热议。多位资深开发者在社交媒体上指出,代码中暴露的“流式混合专家”(Streaming MoE)特征可能解决了大模型在实时编码辅助中的延迟痛点。有行业分析师认为,如果“MODEL1”的实测性能如代码暗示般强大,它将是继 R1 之后对全球 AI 开发生态的又一次“降维打击”,特别是在代码生成和逻辑推理领域。
Meta CTO 坦言 Llama 4 表现令人失望
Meta 首席技术官 Andrew Bosworth 在达沃斯世界经济论坛期间接受采访时,罕见地对自家产品进行了公开批评,直言 Llama 4 是一个“令人失望”的项目。Bosworth 表示,该模型缺乏明确的观点,且在任何特定领域都未能展现出惊艳的能力。他同时透露,在 Scale AI 创始人 Alexandr Wang 接手并重组 AI 团队后,Meta 内部已经开发出了一个新的 AI 模型,目前仅供员工内部测试,且表现“看起来非常好”,预计将在今年上半年正式发布。
高管公开承认旗舰模型“失败”在科技巨头中极为罕见,这标志着 Meta 正在经历一场深刻的 AI 战略重置。Bosworth 的表态暗示了 Meta 试图摆脱单纯追求通用大模型的路径,转而寻求更具针对性、能解决具体痛点的“观点化”模型。 这一转变也反映了开源模型领域的竞争已从单纯的参数规模竞赛,转向了模型实用性与垂直能力的深度比拼。对于依赖 Llama 生态的开发者而言,这意味着未来的技术栈可能需要适应架构更激进、能力更聚焦的新一代模型。
这一言论在投资界和技术圈引起了震动。部分观察家认为,这是 Meta 在面对 DeepSeek 等新兴对手压力下的自我修正,意在降低市场对旧路线图的预期,为新团队的成果铺路。然而,也有批评声音指出,Reality Labs 的持续裁员配合 AI 战略的摇摆,可能会在短期内削弱开发者对 Meta 开源生态稳定性的信心。
欧盟正式对 X 平台 Grok 模型展开调查
欧盟委员会执行副主席 Henna Virkkunen 宣布,已根据《数字服务法案》(DSA)对马斯克旗下的 X 平台(原 Twitter)及其 AI 工具 Grok 展开正式调查。调查的核心焦点在于 Grok 是否具备足够的风险缓解措施,以防止非自愿色情深度伪造内容(Deepfakes)的生成与传播。欧盟监管机构指出,有证据显示该工具可能被用于生成涉及真实人物甚至未成年人的不当图像,且平台方未能履行法律要求的风险评估义务。
此次调查是 全球监管机构针对生成式 AI 平台责任认定的风向标事件。欧盟的强硬介入表明,单纯的技术中立辩护已无法豁免 AI 模型在内容生成上的法律责任,平台必须在算法层面植入更严格的安全护栏。 对于整个 AI 行业而言,这意味着合规成本将大幅上升,且开源或“不受限制”的 AI 模型在欧洲市场将面临严峻的生存挑战。如果违规行为被坐实,X 平台可能面临高达其全球年营业额 6% 的巨额罚款。
Virkkunen 在声明中严厉指出:“非自愿的色情深度伪造是对女性和儿童的一种暴力形式,我们将确定 X 是否将欧洲公民的权利视为其服务的附带损害。”这一强硬立场获得了多家数字权利组织的声援,他们呼吁监管机构不仅要关注内容删除,更要追究算法设计者的源头责任。与此同时,X 方面尚未对具体的调查细节做出公开回应,但此前曾表示已实施相关技术措施限制违规内容的生成。