公众号
关注微信公众号
移动端
创头条企服版APP

Deepseek开源周“彩蛋”(附前 5 天汇总):硬核揭秘V3/R1推理系统,成本利润率545%

2304
2025-03-13 11:02 抢发第一评

居然还有?原以为为期5天的Deepseek开源周在昨天已经彻底结束。

相关阅读:DeepSeek“开源周”汇总:怀疑DeepSeek训练成本“撒谎”的可以闭嘴了

想不到今天突然又来了一个彩蛋——

DeepSeek官方亲自揭秘了DeepSeek-V3/R1推理系统背后的秘密。

645.jpg

DeepSeek-V3/R1 模型的优化目标很明确:提高吞吐量和降低延迟。

为了实现这两个目标,Deepseek采用了跨节点专家并行(EP)技术,这项技术有两个显著优势:

扩大批量大小 :EP 能显著扩大批量大小,从而提升 GPU 矩阵计算效率,增强吞吐量。

降低延迟 :通过将专家分布在不同 GPU 上,每个 GPU 只处理一小部分专家,减少了内存访问需求,进而降低延迟。

正好通过EP正好完美解决Deepseek团队的需求。

但是!EP 也带来了系统复杂性增加的问题。

主要体现在两个方面:

一是引入了跨节点通信,为了优化吞吐,需要设计合适的计算流程使得传输和计算可以同步进行。

二是涉及多个节点,需要数据并行(DP),并要在不同的 DP 实例之间进行负载均衡。

为了解决 EP 带来的复杂性,主要通过三个黑科技提升性能:

-1-

大规模跨节点专家并行(EP)

由于 DeepSeek-V3/R1 模型中专家数量众多, (256个专家中只有8个被激活!),模型的高稀疏性要求整体批量大小必须足够大,以确保每个专家都有足够的批量大小,才能实现更高的吞吐量和更低的延迟。

因此,大规模跨节点专家并行 (EP) 是必不可少的。

在预填充(prefilling)和解码(decoding)阶段,系统采用了不同的并行程度:

预填充阶段 :每个部署单元跨越 4 个节点,有 32 个冗余路由专家,每个 GPU 处理 9 个路由专家和 1 个共享专家。

解码阶段 :每个部署单元跨越 18 个节点,有 32 个冗余路由专家,每个 GPU 管理 2 个路由专家和 1 个共享专家。

-2-

计算与通信重叠

大规模跨节点 EP 会带来显著的通信开销。

为了减轻这种开销,系统采用了双批次重叠策略,就是把一个大的请求 Batch 分成两个 Micro-Batch,交替执行。

这样,一个 Micro-Batch 的通信开销就可以巧妙地隐藏在另一个 Micro-Batch 的计算过程中!

简单来说就是一边炒菜一边接电话,两件事不互相干扰。

646.jpg

而在解码阶段,由于不同阶段的执行时间不平衡,系统将注意力层细分为两个步骤,并使用 5 阶段流水线,实现无缝的通信和计算重叠。

这就像是你做饭时,先切菜再炒菜,每一步都有条不紊地进行,不会浪费时间。

640 (1).jpg

-3-

尽可能实现最佳负载均衡

大规模并行 (DP + EP) 带来的另一个挑战就是 负载均衡,如果单个 GPU 的计算或通信负载过重,就会成为性能瓶颈,拖慢整个系统,同时让其他 GPU 空闲,造成整体利用率下降。

为了最大化资源利用率,DeepSeek 团队在负载均衡方面也做了很多优化,主要包括以下三个方面:

预填充负载均衡器 :由于不同 DP 实例之间的请求数量和序列长度不同,会导致核心注意力计算和分发发送负载不平衡。

优化目标:各GPU的KVCache占用量尽量相同(core-attention计算负载均衡)、请求数量尽量相同(dispatch发送量负载均衡)

解码负载均衡器 :不同 DP 实例之间的请求数量和序列长度不均,会导致核心注意力计算(与 KVCache 使用相关)和分发发送负载存在差异。

优化目标:平衡 GPU 之间的 KVCache 使用,均衡每个 GPU 的请求数量。

专家并行负载均衡器 :对于给定的 MoE 模型,存在一些天然的高负载专家(expert),导致不同 GPU 之间的专家计算工作负载不平衡。

优化目标:平衡每个 GPU 上的专家计算,即尽量减少所有 GPU 中的最大分发接收负载。

640 (2).jpg

DeepSeek - V3/R1 推理服务都用 H800 GPU,精度和训练时一样。具体说,矩阵乘法、分发传输用 FP8 格式,核心 MLA 计算、组合传输用 BF16 格式,

这样能最大程度保证了服务效果。

因为白天忙、晚上闲,系统白天高峰时在所有节点部署推理服务,晚上负载低时减少节点,把资源给研究和训练。

过去 24 小时,V3 和 R1 推理服务的峰值节点占用量达到 278 个,平均占用量为 226.75 个节点(每个节点包含 8 个 H800 GPU)。

若 1 个 H800 GPU 每小时租 2 美元,一天成本 87,072 美元。

640 (3).jpg

其他关键数据:

总输入 Tokens:608B,其中 342B (56.3%) 命中 On-disk KV 缓存

总输出 Tokens:168B。

平均输出速度:20-22 tokens/秒。

平均每个输出 Token 的 KVCache 长度:4,989 tokens

从经济效益来看,如果所有 token 都按 DeepSeek-R1 的定价计费,总日收入将达到 562,027 美元,成本利润率高达 545%。

640 (4).jpg

不过实际收入要低得多,原因包括 DeepSeek-V3 的定价远低于 R1,只有部分服务实现了货币化(网页和 APP 访问仍然免费),以及在非高峰时段会自动应用夜间折扣。

附 DeepSeek 官方原文

https://mp.weixin.qq.com/s/dEEfMQgDK7y17yVjh6zblA

当看到DeepSeek这么便宜,成本利润率还表现这么突出,相比之下,GPT4.5 的价格却高达 DeepSeek 的近 300 倍,严重怀疑隔壁的Close AI在抢劫.....

相关阅读:GPT4.5正式发布,效果不及o3-mini,价格是DeepSeek三百倍

您也可以关注我们的官方微信公众号(ID:ctoutiao),给您更多好看的内容。

声明:本文由创头条企业号发布,依据企业号用户协议,该企业号为文章的真实性和准确性负责。创头条作为品牌传播平台,只为传播效果负责,在文章不存在违反法律规定的情况下,不继续承担甄别文章内容和观点的义务。
您阅读这篇文章花了0
转发这篇文章只需要1秒钟
Deepseek开源周“彩蛋”(附前 5 天汇总):硬核揭秘V3/R1推理系统,成本利润率545%
打赏一下 0
喜欢这篇 7
评论一下 0
凯派尔知识产权全新业务全面上线
相关文章
评论
试试以这些内容开始评论吧
登录后发表评论
凯派尔知识产权全新业务全面上线
宁波城市站
金华城市站
×
#热门搜索#
精选双创服务
历史搜索 清空

Tel:18514777506

关注微信公众号

创头条企服版APP