AI导读:

DeepSeek首次披露V3/R1推理系统的大规模部署成本和收益,假定GPU租赁成本下,理论成本利润率高达545%。同时,潞晨科技宣布将暂停DeepSeek API服务,引发业界关注。

一起关注一下关于Deepseek的最新消息!

DeepSeek首次披露:理论成本利润率高达545%

当市场以为DeepSeek的开源周内容发布完毕后,3月1日,DeepSeek宣布了“One More Thing”,突然揭秘V3/R1推理系统,并公开了大规模部署的成本和收益详情。

根据《DeepSeek-V3/R1推理系统概览》一文,假定GPU租赁成本为2美元/小时,总成本为87072美元/天;若所有tokens均按DeepSeek R1的定价计算,理论上一天的总收入可达562027美元,成本利润率高达545%。

DeepSeek-V3/R1推理系统旨在实现更大吞吐、更低延迟。

为实现这两个目标,DeepSeek采用了大规模跨节点专家并行(Expert Parallelism / EP)技术。EP技术不仅提高了GPU矩阵乘法的效率,增加了吞吐,还通过分散专家至不同GPU,降低了延迟。

然而,EP也增加了系统的复杂性,主要体现在跨节点传输和多个节点间的负载均衡。

DeepSeek详细介绍了如何利用EP增大batch size、隐藏传输耗时及进行负载均衡。

大规模跨节点专家并行(Expert Parallelism / EP)

由于DeepSeek-V3/R1的专家数量众多,且每层256个专家中仅激活8个,模型的高度稀疏性要求采用大规模跨节点专家并行。

多机多卡的专家并行策略旨在:

Prefill:路由专家EP32、MLA和共享专家DP32,一个部署单元包含4节点,32个冗余路由专家,每张卡9个路由专家和1个共享专家。

Decode:路由专家EP144、MLA和共享专家DP144,一个部署单元为18节点,32个冗余路由专家,每张卡2个路由专家和1个共享专家。

计算通信重叠:

多机多卡的专家并行会引入较大通信开销,因此采用双batch重叠来掩盖通信开销,提高整体吞吐。

对于decode阶段,不同阶段的执行时间有差异,因此将attention部分拆成两个stage,共计5个stage的流水线,以实现计算和通信的重叠。

负载均衡:

大规模并行(包括数据并行和专家并行)要求尽可能为每个GPU分配均衡的计算和通信负载。

DeepSeek引入了PrefillLoadBalancer、DecodeLoadBalancer和Expert-ParallelLoadBalancer,以优化各GPU的计算量和输入token数量的负载均衡。

线上系统实际统计数据:

DeepSeek V3和R1服务均使用H800 GPU,采用与训练一致的精度,最大程度保证了服务效果。

在最近的24小时统计时段内(北京时间2025/02/27 12:00至2025/02/28 12:00),DeepSeek V3和R1推理服务峰值占用278个节点,平均占用226.75个节点(每个节点8个H800 GPU)。

在统计时段内,DeepSeek V3和R1输入token总数为608B,其中56.3%命中KVCache硬盘缓存。

假定GPU租赁成本为2美金/小时,总成本为87072美元/天。若所有tokens均按DeepSeek-R1的定价计算,理论上一天总收入为562027美元,成本利润率为545%。

有网友将DeepSeek与OpenAI对比,表示惊讶于DeepSeek的高成本利润率。

潞晨科技暂停DeepSeek API服务:

DeepSeek披露成本和收益后,潞晨科技突然宣布将在一周后停止提供DeepSeek API服务,请用户尽快用完余额。

此前,潞晨科技与华为昇腾合作,发布了基于昇腾算力的DeepSeek-R1系列推理API及云镜像服务。

但近期潞晨科技CEO指出,由于服务成本高昂,企业可能面临巨额亏损,因此决定暂停服务。

潞晨科技是一家致力于“解放AI生产力”的全球性企业,团队核心成员来自国内外知名高校,主营业务包括分布式软件系统、大规模人工智能平台及企业级云计算解决方案。

(文章来源:中国基金报)