
DeepSeek发布V4大模型,首次深度适配华为昇腾950芯片,实现推理端国产算力替代,打破对英伟达CUDA生态的依赖;模型在知识、数学、代码及Agent能力上达国际先进水平,支持百万token上下文,但训练环节仍可能依赖英伟达芯片,全链路国产化尚未完成。
文|蓝字计划,作者|Hayward
英伟达 CEO 黄仁勋的噩梦成真了。
4 月 17 日,黄仁勋在一个采访中罕见发飙:
主持人问他,如果美国“卖芯片给中国,中国算力增强了,不就是帮对手变强吗?”
但老黄却愤怒地说:“芯片又不是浓缩铀!卖给中国怎么了?“
“如果 DeepSeek 这种中国顶尖大模型,以后首发跑在华为芯片上,对美国来说就是可怕的结果!”
七天之后,老黄一语成箴。
4 月 24 日,在 DeepSeek V3/R1 爆火了一年多之后,在众人的翘首期盼之下,DeepSeek终于掏出了一个大版本号更新的新模型。
但比起DeepSeek V4 的性能提升,更引人注目的是另一件事:
相比英伟达,DeepSeek 这次选择和华为走到了一起。
按照官方的说法,这次 DeepSeek V4 和华为方堪称“深度融合”,而这种融合,就体现在芯模协同的芯片 + 模型层面。
DeepSeek 在 V4 开发过程中,专门花了几个月时间与华为(以及寒武纪)密切合作,重写了模型底层代码的部分模块,从原本更依赖 CUDA 的技术路径,开始向华为 CANN 生态做深度适配。
这打破了行业惯例——以往大模型通常优先给英伟达/AMD 提供早期访问权限进行优化,而 DeepSeek 这次把优先期给了国产芯片,确保 V4 在华为昇腾950 系列芯片上高效运行。
几乎与此同时,华为计算官方明确表示,昇腾超节点系列产品已全面支持DeepSeek-V4。

通过双方芯模技术紧密协同,实现了在昇腾硬件上的低时延推理。例如在 8K 输入场景下,昇腾 950 超节点可实现 V4-Pro TPOT 约 20ms、V4-Flash TPOT 约 10ms 的单 token 解码时延,非常出色。
正是基于这个消息,这次 DeepSeek V4 的发布,除了满足吃瓜群众等来“下一个 DeepSeek R1”的朴素愿望外,还被视为中国 AI 产业链“从依赖到自主”的重要一步。
之所以会被赋予如此重大的意义,看看过去一年里关于 DeepSeek 的讨论都离不开英伟达就知道了。
V3 也好,R1 也好,无论成本再低,性能再好,但都绕不开一个现实:
买得到什么卡、能不能稳定供货、美国什么时候再加一道禁令、CUDA 生态能不能继续用,始终都在有形无形地掐着国产大模型的脖子。
而在今天,至少在推理端,中国大模型已经开始突破重围。
一个中国最顶尖的大模型,至少在推理服务上,已经不必完全依赖英伟达的卡。
过去美国一边卡中国的高端 AI 芯片,一边又想让英伟达继续卖 H20 这种“特供残血卡”的历史,也一去不复返了。
当然,DeepSeek V4 能让人兴奋,除了华为,还在于它确实非常能打。
从目前公开信息看,DeepSeek V4 的成绩,确实把 DeepSeek 又送回了国内大模型的最前排。
先看基础能力。
DeepSeek 官方称,V4-Pro在世界知识、数学、STEM、代码等方向上,已经超过当前开源模型,并接近全球顶级闭源模型水平;V4-Flash 的推理能力也接近 V4-Pro,在简单 Agent 任务上表现接近旗舰版。


另一方面,针对当前行业大热的 Agent 能力,DeepSeek V4 也迎来了“史诗级”加强。
官方明确强调 V4 面向 Agent 能力做了专门优化,已经接入 Claude Code、OpenClaw、OpenCode 等主流 AI Agent 工具,并且正在驱动 DeepSeek 自己内部的 agentic coding。
然后还有上下文能力,DeepSeek V4 支持 100 万 token 上下文,并且是所有模型的默认能力,实现近 7.8 倍提升。
有了这样强大的上下文能力,新模型就能轻松支持超长上下文场景,如长文档分析、复杂Agent 任务,还是为未来的 AI 工具实用性落地、Agent工具接入做准备。
只不过,在价格方方面,这次可能就不再是 DeepSeek 的优势了。
官方价格表显示,V4-Flash 每百万输入 token 是 0.14 美元,每百万输出 token 是 0.28 美元;V4-Pro每百万输入 token 是 1.74 美元,每百万输出 token 是 3.48 美元。
缓存命中时,输入价格还能进一步降到 0.028 美元和 0.145 美元。
相比 DeepSeek 过去那种“便宜到让同行怀疑人生”的打法,V4-Pro 明显贵了不少;但也从另一方面说明,DeepSeek不是单纯靠低价冲市场了,他们也有信心,抬高价格后依然有大把人买单。
无论是从能力还是价格定位来看,DeepSeek V4 显然有着改写市场秩序的野心。
只不过,距离 DeepSeek V4 的完全胜利,可惜还差一步。
DeepSeek V4 跑在华为昇腾上,当然是一个标志性事件。
可它目前最确定的部分,还是推理和适配;对于真正能鼓舞士气的“用昇腾芯片训练出DeepSeek V4” ,却还没有一个明确的答案。
根据路透社的报道,DeepSeek V4 适配了华为芯片技术,华为也称昇腾超节点产品线支持 V4 系列模型;但 DeepSeek 并没有披露训练这款最新模型使用了哪些处理器。
此前 Reuters 曾援引美国官员称,DeepSeek 最新模型使用 Nvidia Blackwell 训练。到目前为止,V4 的训练硬件仍没有明确答案。
另一方面,这次频繁路面的华为昇腾 950系列芯片被定位为推理专用芯片,FP8/FP4 等低精度算力强劲,单卡性能在某些场景下据称可达英伟达 H20 的 2.87 倍左右,真正能用来训练的,实际上是今年下半年才实现量产的950DT。
所以,DeepSeek V4 只能算是部分摆脱了英伟达 CUDA 生态的依赖,距离“全链路国产”,还有一些距离。
不过好在,这次昇腾官方披露了一个值得注意的细节:CANN 已基于 A3 64 卡超节点,完成 DeepSeek V4-Flash 模型续训练(CPT)的 0-day 适配支持,实测模型吞吐量最高达到 1100 tokens/p/s。

这个细节的价值在于,尽管 V4-Flash 只是轻量版本,但 DeepSeek V4 已经可以在国产算力上跑通续训练流程。
这意味着,国产算力在大模型链路里的角色,正在从推理部署继续往训练侧推进:先跑通推理,再完成续训练适配,最后攻克最难的完整预训练。
说不定到了今年下半年,昇腾950DT 可以实现大规模出货,我们就真的可以看到“训练—推理”全链路跑在国产算力上的国产大模型了。