居然还有?原以为为期5天的Deepseek开源周在昨天已经彻底结束。
相关阅读:DeepSeek“开源周”汇总:怀疑DeepSeek训练成本“撒谎”的可以闭嘴了
想不到今天突然又来了一个彩蛋——
DeepSeek官方亲自揭秘了DeepSeek-V3/R1推理系统背后的秘密。
DeepSeek-V3/R1 模型的优化目标很明确:提高吞吐量和降低延迟。
为了实现这两个目标,Deepseek采用了跨节点专家并行(EP)技术,这项技术有两个显著优势:
扩大批量大小 :EP 能显著扩大批量大小,从而提升 GPU 矩阵计算效率,增强吞吐量。
降低延迟 :通过将专家分布在不同 GPU 上,每个 GPU 只处理一小部分专家,减少了内存访问需求,进而降低延迟。
正好通过EP正好完美解决Deepseek团队的需求。
但是!EP 也带来了系统复杂性增加的问题。
主要体现在两个方面:
一是引入了跨节点通信,为了优化吞吐,需要设计合适的计算流程使得传输和计算可以同步进行。
二是涉及多个节点,需要数据并行(DP),并要在不同的 DP 实例之间进行负载均衡。
为了解决 EP 带来的复杂性,主要通过三个黑科技提升性能:
-1-
大规模跨节点专家并行(EP)
由于 DeepSeek-V3/R1 模型中专家数量众多, (256个专家中只有8个被激活!),模型的高稀疏性要求整体批量大小必须足够大,以确保每个专家都有足够的批量大小,才能实现更高的吞吐量和更低的延迟。
因此,大规模跨节点专家并行 (EP) 是必不可少的。
在预填充(prefilling)和解码(decoding)阶段,系统采用了不同的并行程度:
预填充阶段 :每个部署单元跨越 4 个节点,有 32 个冗余路由专家,每个 GPU 处理 9 个路由专家和 1 个共享专家。
解码阶段 :每个部署单元跨越 18 个节点,有 32 个冗余路由专家,每个 GPU 管理 2 个路由专家和 1 个共享专家。
-2-
计算与通信重叠
大规模跨节点 EP 会带来显著的通信开销。
为了减轻这种开销,系统采用了双批次重叠策略,就是把一个大的请求 Batch 分成两个 Micro-Batch,交替执行。
这样,一个 Micro-Batch 的通信开销就可以巧妙地隐藏在另一个 Micro-Batch 的计算过程中!
简单来说就是一边炒菜一边接电话,两件事不互相干扰。
而在解码阶段,由于不同阶段的执行时间不平衡,系统将注意力层细分为两个步骤,并使用 5 阶段流水线,实现无缝的通信和计算重叠。
这就像是你做饭时,先切菜再炒菜,每一步都有条不紊地进行,不会浪费时间。
-3-
尽可能实现最佳负载均衡
大规模并行 (DP + EP) 带来的另一个挑战就是 负载均衡,如果单个 GPU 的计算或通信负载过重,就会成为性能瓶颈,拖慢整个系统,同时让其他 GPU 空闲,造成整体利用率下降。
为了最大化资源利用率,DeepSeek 团队在负载均衡方面也做了很多优化,主要包括以下三个方面:
预填充负载均衡器 :由于不同 DP 实例之间的请求数量和序列长度不同,会导致核心注意力计算和分发发送负载不平衡。
优化目标:各GPU的KVCache占用量尽量相同(core-attention计算负载均衡)、请求数量尽量相同(dispatch发送量负载均衡)
解码负载均衡器 :不同 DP 实例之间的请求数量和序列长度不均,会导致核心注意力计算(与 KVCache 使用相关)和分发发送负载存在差异。
优化目标:平衡 GPU 之间的 KVCache 使用,均衡每个 GPU 的请求数量。
专家并行负载均衡器 :对于给定的 MoE 模型,存在一些天然的高负载专家(expert),导致不同 GPU 之间的专家计算工作负载不平衡。
优化目标:平衡每个 GPU 上的专家计算,即尽量减少所有 GPU 中的最大分发接收负载。
DeepSeek - V3/R1 推理服务都用 H800 GPU,精度和训练时一样。具体说,矩阵乘法、分发传输用 FP8 格式,核心 MLA 计算、组合传输用 BF16 格式,
这样能最大程度保证了服务效果。
因为白天忙、晚上闲,系统白天高峰时在所有节点部署推理服务,晚上负载低时减少节点,把资源给研究和训练。
过去 24 小时,V3 和 R1 推理服务的峰值节点占用量达到 278 个,平均占用量为 226.75 个节点(每个节点包含 8 个 H800 GPU)。
若 1 个 H800 GPU 每小时租 2 美元,一天成本 87,072 美元。
其他关键数据:
总输入 Tokens:608B,其中 342B (56.3%) 命中 On-disk KV 缓存
总输出 Tokens:168B。
平均输出速度:20-22 tokens/秒。
平均每个输出 Token 的 KVCache 长度:4,989 tokens
从经济效益来看,如果所有 token 都按 DeepSeek-R1 的定价计费,总日收入将达到 562,027 美元,成本利润率高达 545%。
不过实际收入要低得多,原因包括 DeepSeek-V3 的定价远低于 R1,只有部分服务实现了货币化(网页和 APP 访问仍然免费),以及在非高峰时段会自动应用夜间折扣。
附 DeepSeek 官方原文
https://mp.weixin.qq.com/s/dEEfMQgDK7y17yVjh6zblA
当看到DeepSeek这么便宜,成本利润率还表现这么突出,相比之下,GPT4.5 的价格却高达 DeepSeek 的近 300 倍,严重怀疑隔壁的Close AI在抢劫.....
相关阅读:GPT4.5正式发布,效果不及o3-mini,价格是DeepSeek三百倍
您也可以关注我们的官方微信公众号(ID:ctoutiao),给您更多好看的内容。