开yun体育网存在一些自然的高负载众人（expert）-开云「中国」kaiyun网页版登录入口

专题：DeepSeek为何能革新全球AI圈开yun体育网

　　【导读】DeepSeek一天能赚几许钱？官方已而揭秘！潞晨科技暂停DeepSeek API就业

　　中国基金报记者泰勒

　　大家好，一齐和顺一下对于DeepSeek的最新音信！

　　DeepSeek初度透露：表面资本利润率545%

　　当商场认为DeepSeek的开源周内容发布完结之后，3月1日，DeepSeek晓谕了“One More Thing”，已而揭秘V3/R1推理系統，公开了大领域部署资本和收益。

　　把柄《DeepSeek-V3/R1推理系统概览》的著作，假设GPU租出资本为2好意思元/小时，总资本为87072好意思元/天；要是总共tokens全部按照DeepSeek R1的订价狡计，表面上一天的总收入为562027好意思元/天，资本利润率为545%。

　　据官方透露，DeepSeek-V3/R1推理系统的优化策画是：更大的朦拢，更低的延伸。

　　为了达成这两个策画，DeepSeek使用大领域跨节点众人并行（Expert Parallelism / EP）。最初EP使得batch size大大加多，从而种植GPU矩阵乘法的效力，种植朦拢。其次EP使得众人辨认在不同的GPU上，每个 GPU 只需要狡计很少的众人（因此更少的访存需求），从而缩小延伸。

　　但EP同期也加多了系统的复杂性。复杂性主要体咫尺两个方面：

　　EP引入跨节点的传输。为了优化朦拢，需要遐想稳当的狡计进程使得传输和狡计不错同步进行。

　　EP波及多个节点，因此自然需要Data Parallelism（DP），不同的DP之间需要进行负载平衡。

　　因此，DeepSeek先容了何如使用EP增大batch size，何如荫藏传输的耗时，何如进行负载平衡。

　　大领域跨节点众人并行（Expert Parallelism / EP）

　　由于DeepSeek-V3/R1的众人数目广宽，况且每层256个众人中仅激活其中8个。模子的高度疏淡性决定了必须接管很大的overall batch size，才气给每个众人提供填塞的expert batch size，从而达成更大的朦拢、更低的延时。需要大领域跨节点众人并行（Expert Parallelism / EP）。

　　接管多机多卡间的众人并行政策来达到以下想法：

　　Prefill：路由众人EP32、MLA和分享众人DP32，一个部署单位是4节点，32个冗余路由众人，每张卡9个路由众人和1个分享众人。

　　Decode：路由众人EP144、MLA和分享众人DP144，一个部署单位是18 节点，32个冗余路由众人，每张卡2个路由众人和1个分享众人。

　　狡计通讯重复

　　多机多卡的众人并行会引入比拟大的通讯支出，是以使用了双batch重复来袒护通讯支出，种植合座朦拢。

　　对于prefill阶段，两个batch的狡计和通讯交错进行，一个batch在进行狡计的技术不错去袒护另一个batch的通讯支出；

　　对于decode阶段，不同阶段的试验时分有所死别，是以把attention部分拆成了两个stage，揣摸5个stage的活水线来达成狡计和通讯的重复。

　　尽可能地负载平衡

　　由于接管了很大领域的并行（包括数据并行和众人并行），要是某个GPU的狡计或通讯负载过重，将成为性能瓶颈，拖慢总共这个词系统；同期其他GPU因为恭候而空转，变成合座愚弄率着落。因此需要尽可能地为每个GPU分派平衡的狡计负载、通讯负载。

PrefillLoadBalancer

中枢问题：不同数据并行（DP）实例上的申请个数、长度不同，导致core-attention狡计量、dispatch发送量也不同。

优化策画：各GPU的狡计量尽量疏浚（core-attention狡计负载平衡）、输入的token数目也尽量疏浚（dispatch发送量负载平衡），幸免部分GPU处理时分过长。

DecodeLoadBalancer

中枢问题：不同数据并行（DP）实例上的申请数目、长度不同，导致core-attention狡计量（与KVCache占用量有关）、dispatch发送量不同。

优化策画：各GPU的KVCache占用量尽量疏浚（core-attention狡计负载平衡）、申请数目尽量疏浚（dispatch发送量负载平衡）。

Expert-ParallelLoadBalancer

中枢问题：对于给定MoE模子，存在一些自然的高负载众人（expert），导致不同GPU的众人狡计负载不平衡。

优化策画：每个GPU上的众人狡计量平衡（即最小化总共GPU的dispatch接纳量的最大值）。

　　线上系统的内容统计数据

　　DeepSeekV3和R1的总共就业均使用H800GPU，使用和检会一致的精度，即矩阵狡计和dispatch传输接管和检会一致的FP8顺序，core-attention狡计和combine传输接管和检会一致的BF16，最猛进程保证了就业后果。

　　另外，由于白昼的就业负荷高，晚上的就业负荷低，因此达成了一套机制，在白昼负荷高的技术，用总共节点部署推理就业。晚上负荷低的技术，减少推理节点，以用来作念策动和检会。在最近的24小时里（北京时分2025/02/27 12：00至2025/02/28 12：00），DeepSeek-V3和R1推理就业占用节点总和，峰值占用为278个节点，平均占用226.75个节点（每个节点为8个H800GPU）。假设GPU租出资本为2好意思金/小时，总资本为87072好意思元/天。

　　在24小时统计时段内，DeepSeek-V3和R1：

　　输入token总额为608B，其中342Btokens（56.3%）射中KVCache硬盘缓存。

　　输出token总额为168B。平均输出速度为20~22tps，平均每输出一个token的KVCache长度是4989。

　　平均每台H800的朦拢量为：对于prefill任务，输入朦拢约73.7ktokens/s（含缓存射中）；对于decode任务，输出朦拢约14.8ktokens/s。

　　以上统计包括了网页、APP和API的总共负载。要是总共tokens全部按照DeepSeek-R1的订价狡计，表面上一天的总收入为562027好意思元，资本利润率为545%。固然内容上莫得这样多收入，因为V3的订价更低，同期收费就业只占了一部分，另外夜间还会有扣头。

　　有网友将DeepSeek与OpenAI进行对比，暗示：“‘资本利润率545%’，等一下，是以你是说我被OpenAI打劫了？”

　　潞晨科技暂停DeepSeek API就业

　　就在DeepSeek透露大领域部署资本和收益之后，潞晨科技已而晓谕：“尊敬的用户，潞晨云将在一周后住手提供DeepSeek API就业，请尽快用完您的余额。要是没用完，咱们全额退款。”

　　此前2月4日晚间，华为狡计微信公众号发文暗示，DeepSeek-R1系列模子的开源，因其出色的性能和便宜的成立资本，已激勉全球的紧迫磋议和和顺。潞晨科技联袂昇腾，麇集发布基于昇腾算力的DeepSeek-R1系列推理API，及云镜像就业。

　　但近期潞晨科技CEO尤洋指出，满血版DeepSeek-R1每百万token（输出）订价16元，要是逐日输出1000亿token，一个月算下来接入方企业可赢得4800万元收入。据他测算，完成1000亿token的输出，需要约4000台搭载H800的机器，以咫尺H800的市价大概折旧来狡计，每月仅机器资本就达4.5亿元，因此企业方可能濒临每月4亿元的亏欠，“用户越多，就业资本越高，亏欠越多”。

　　3月1日下昼4点，潞晨科技CEO尤洋发文复兴DeepSeek公布的表面资本利润率。

　　公开贵寓暴露，潞晨科技是一家竭力于于“沉静AI坐蓐力”的全球性企业，团队中枢成员来自好意思国加州大学伯克利分校，斯坦福大学，清华大学，北京大学等国表里闻名高校。主贸易务包括散布式软件系统，大领域东说念主工智能平台，以及企业级云狡计贬责决议。公司旨在打造一个开源低资本AI大模子成立系统Colossal-AI，行动深度学习框架的内核，匡助企业最大化东说念主工智能检会效力的同期最小化东说念主工智能的检会资本。

　　校对：纪元

　　裁剪：嘉颖

　　审核：许闻

颤抖全球！特朗普、泽连斯基，“离散了”！时期的眼泪！已而晓谕：绝走运营！

]article_adlist-->

海量资讯、精确解读，尽在新浪财经APP

背负裁剪：石秀珍 SF183开yun体育网