DeepSeekV4技术突围:低成本推理背后的算力自主化野望

2024年初,我第一次接触DeepSeek的模型时,心里其实是存疑的。彼时国内大模型赛道刚刚起步,各家都在拼参数量、拼Benchmark高分,唯独DeepSeek选择了一条并不算讨巧的路径——成本优先。这一选择在当时并不被看好,但从V4发布的结果来看,这条路正在逐步验证。

从「聊天」到「干活」:V4的产品定位转向

V4系列包含V4-Pro和V4-Flash两个版本,这个命名本身就透露出明确的定位差异。Pro版本面向专业开发者,Flash版本则主打极致性价比。1M上下文成为全系标配,不再作为高端卖点单独销售,这一决策直接拉低了长文本处理的门槛。

更值得关注的是输出定价。V4-Flash的定价为2元/百万token,这个数字意味着什么?对比行业平均水平,V4的定价约为GPT-5.5的百分之一。单token算力消耗仅为此前版本的10%至27%,这是一个数量级的差距。换句话说,开发者在相同预算下,可以调用约10倍的API配额。

从技术实现角度,这种效率提升并非来自算法层面的突破性创新,而是通过大量底层代码重写实现的。V4开发过程中,团队对核心推理引擎进行了深度优化,在保证输出质量的前提下大幅削减了冗余计算。

 DeepSeek V4技术突围:低成本推理背后的算力自主化野望 IT技术

华为昇腾:一次不得不做的技术栈迁移

V4发布当天,华为同步宣布昇腾950超节点已全面适配该系列模型。V4-Pro实现了约20ms的单token解码时延,华为将其定义为「重新定义了长文本推理的性能天花板」。

这个合作的达成,背后是DeepSeek不得不完成的CUDA到CANN生态迁移。CUDA是英伟达的闭源生态,长期以来几乎垄断了全球AI训练和推理市场。但对于DeepSeek而言,使用英伟达生态意味着在算力供给上受制于人。大厂的资金优势可以轻松锁定H系列芯片的供给,DeepSeek必须寻找替代方案。

华为昇腾910系列是目前国内性能最强的AI训练芯片之一,虽然在软件生态完善度上与CUDA仍有差距,但已经具备支撑大规模推理的能力。DeepSeek选择在V4项目上全面拥抱CANN生态,这是一个技术风险极高的决策,但也是不得不做的选择。

值得注意的是,V4并未向英伟达开放测试,而是优先与华为及寒武纪合作。这一决策的逻辑很清晰:英伟达是竞争对手的软件生态,拥有足够强的替代方案才能确保供应链安全。

 DeepSeek V4技术突围:低成本推理背后的算力自主化野望 IT技术

乌兰察布:算力自主化的地理布局

DeepSeek近期在内蒙古乌兰察布发布了多个数据中心岗位,月薪开至15-30K·14薪。这个薪资水平是当地平均薪资的4到6倍,透露出DeepSeek在算力基础设施上的投入力度。

乌兰察布的数据中心选址并非随意。内蒙古电价优势显著,当地电价比京津冀低约50%。同时,年均气温4.3℃意味着可以自然制冷近10个月,这大幅降低了散热系统的能耗成本。作为「东数西算」八大枢纽之一,乌兰察布距北京直线距离仅240公里,网络延迟可控制在4.2毫秒,既能享受低成本电力,又能保证对一线城市用户的响应速度。

根据规划,DeepSeek一期在乌兰察布部署约2万张芯片,采用H800和昇腾910混用的策略。远期规划扩展至5万张以上。这一规模的算力自建,意味着DeepSeek正在从「租用云服务的算法公司」转向「自建算力基础设施的运营商」。

从技术架构视角看,自建算力的价值不仅在于成本控制。当DeepSeek拥有自己的算力集群后,可以针对自有硬件特性进行深度优化,实现软硬一体的垂直整合。这种能力在未来模型迭代中将形成显著的差异化优势。

V4的局限性:现实约束下的工程妥协

在肯定V4技术突破的同时,必须正视其局限性。DeepSeek官方坦承,V4整体能力仍落后GPT-5.4和Gemini-3.1-Pro约3至6个月。复杂深度推理与ClaudeOpus4.6的思考模式存在阶段性差距,这在长程推理和复杂规划任务上尤为明显。

更关键的是,V4暂不支持多模态功能。这并非技术路线上的主动选择,而是算力和现金约束下的被动取舍。团队在多模态训练和Agent优化之间做出了优先级排序,选择将有限资源投入到当时更紧迫的核心推理能力提升上。

这种取舍在资源有限的情况下是理性的。V4的定位很清晰:做高性价比的底层推理模型,而非追求功能完整性的全能选手。当前的V4-Pro服务吞吐十分有限,高端算力的缺乏限制了商业化速度。预计下半年昇腾950超节点批量上市后,成本结构才会出现根本性改善。