当前位置：首页>Linux>DeepSeek V4,模型的“Linux时刻”

DeepSeek V4,模型的“Linux时刻”

2026-06-28 23:46:57

不敢为天下先，故能成器长。——老子《道德经》

昨天是戏剧性的一天，刚刚把龙虾的主模型从GPT5.4切到5.5，还没试几个案例，又切到DeepSeek V4了。

比 GPT-5.5 晚几小时，比 Opus 4.7 晚八天——V4 没有选择抢一个"首发"窗口。它选择的是另一件事：把前沿 coding 模型的价格、上下文、开源协议、agent 兼容性，一次推到一个新的均衡点，然后开源。

1、惊艳之处

1M 上下文成为默认。V3.2 是 128K，V4 两个模型全部直接跳到 1M，在官方服务里成为默认标准。这是继 Gemini 之后第二个把 1M 做成日常配置的模型家族，但 DeepSeek 是开源的。

Benchmark 越过"人类审阅可交付"那条线。V4-Pro 拿下 SWE-bench Verified 80.6%、Terminal-Bench 2.0 67.9%、Codeforces 3206 分。

价格大约是 GPT-5.5 的 1/9。V4-Pro 输出 $3.48 / M tokens，对比 GPT-5.5 $30、Opus 4.7 $25。V4-Flash 输出 $0.28 / M，比 Pro 再低一个数量级。

三行命令接入 Claude Code。官方 docs 给了完整清单，修改 ANTHROPIC_BASE_URL、ANTHROPIC_AUTH_TOKEN、ANTHROPIC_MODEL 三个环境变量，原本跑 Opus 的 Claude Code 会话就切成跑 V4-Pro。OpenClaw、OpenCode也一样。

2、诚实的缺陷

DeepSeek 自己把最诚实的那段话写在了技术报告里：

通过扩展推理 token，DeepSeek-V4-Pro-Max 在标准推理基准上优于 GPT-5.2 和 Gemini-3.0-Pro，但仍略落后于 GPT-5.4 和 Gemini-3.1-Pro，显示出约三到六个月的发展轨迹差距。

大厂发模型都是 cherry-pick 赢的 benchmark，DeepSeek 把自家尾巴露在太阳底下——这种做法在 LLM 发布史上罕见到几乎没有先例，以及比如官方推文这样的表述：“交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。”

3、技术报告

昨晚仔细看了下技术报告，里有三个关键点，用我熟悉的两个域做一次类比（不一定精确）：

Hybrid Attention（CSA + HCA）——这是 V4 效率上的王牌。1M 上下文场景下，V4-Pro 相比 V3.2 只用 27% 的 FLOPs 和 10% 的 KV cache。CSA 是"压缩稀疏注意力"，HCA 是"重度压缩注意力"。两者交替使用的感觉，像书法里中锋和侧锋的切换：大部分笔画用侧锋快速铺开（CSA 粗略扫过远距离信息），关键转折处用中锋稳稳压住（HCA 精细处理核心上下文）。笔法不同，落纸都成字。

Manifold-Constrained Hyper-Connections（mHC）——字面叫"流形约束超连接"，本质是让信号在深层网络里传递时不丢失关键语义。借书法里的话叫笔断意连——笔画显式地断开，气脉却没断，下一笔接得上。V4 的深层网络想做的就是这件事：层与层显式断，语义上连续。

MoE 架构：1.6T 总参、49B 激活。这套 V3 时期已经成熟，V4 把它推到更大规模。借翻译行业的话叫译员池——翻译公司在册 10000 位译员，单个项目只派 50 位上阵，按内容领域匹配最合适的那组。