DeepSeek 新论文剧透 V4 新框架:用闲置网卡加速智能体推理性能,打破 PD 分离瓶颈

DeepSeek 新论文剧透 V4 新框架:用闲置网卡加速智能体推理性能,打破 PD 分离瓶颈
2026年02月27日 09:33 IT之家

DeepSeek 这小子最精了,当全世界都在盯着他的 GitHub 仓库,等待 V4 时 ——

他和北大、清华在 ArXiv 悄咪咪地上了一篇论文,发布了一个全新的针对智能体的推理框架:DualPath

而且就跟前几天曝出的算力话题相关。

DualPath 的核心在于解决 Agent 长文本推理场景下的 I/O 瓶颈,通过优化从外部存储加载 KV-Cache 的速度,确保计算资源不被存储读取拖累。

它改变了传统的存储至预填充引擎(Storage-to-Prefill)单路径加载模式,引入了存储至解码引擎(Storage-to-Decode)的第二条路径。

通过利用解码引擎闲置的存储网卡(SNIC)带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,DualPath 实现了集群存储带宽的全局池化与动态负载均衡。

在 660B 规模的生产级模型的实测中,DualPath 表现惊人:

离线推理吞吐量提高了 1.87 倍,在线服务吞吐量平均提升 1.96 倍

在高负载下,首字延迟(TTFT)大幅优化,而 Token 间的生成速度(TPOT)几乎不受任何干扰。

接下来,我们一起来看。

总的来说,DualPath 是一个专门为智能体系统设计的推理框架,它的核心洞见是 ——

KV-Cache 的加载不必以预填充为中心

在以往的理解中,谁负责计算谁就去搬数据。但 DualPath 认为,缓存可以先加载到解码引擎中,再通过高性能 RDMA 网络传输至预填充引擎。

通过在两条路径间动态选择,DualPath 重新分配了网络负载,缓解了预填充侧的带宽压力。

那么,为什么要费这么大劲去“绕路”?

之所以这样做,是因为在当前的智能体应用中,对话轮数多且上下文长,KV-Cache 命中率通常高达 95% 以上。

这意味着,每一轮对话都要搬运海量的“旧记忆”,推理性能的瓶颈已经从“计算”转移到了“搬运”上

在现有的预填充-解码分离(PD-disaggregated)架构中,所有的加载任务都拥挤在预填充引擎(PE)的存储网卡上,导致带宽瞬间饱和;

与此同时,解码引擎(DE)的存储网卡却在闲置,造成了严重的资源错配。

更进一步的,当前 GPU 算力的增长远快于网络带宽和 HBM 容量的增长,也加剧了 I/O 限制。

正如英伟达首席科学家 Bill Dally、谷歌架构师 Jeff Dean 等大佬反复强调的:计算是免费的,但数据移动是昂贵的。

针对这些问题,DualPath 构建了创新的双路径模型:

在架构组成上:

如上所述,DualPath 推理系统的核心在于打破了传统的“存储至预填充”单路径模式,创新性地引入了“存储至解码”路径

该设计允许 KV-Cache 先加载至解码引擎(DE),再通过高带宽计算网络(RDMA)无损传输给预填充引擎(PE)。

通过在两条路径间动态分配负载,系统将集群中原本闲置的解码侧存储网卡(SNIC)带宽彻底释放,构建起一个全局可调度的存储 I/O 资源池。

具体来说,为了支持层级流式处理,DualPath 在 PE 和 DE 上均分配了少量 DRAM 缓冲区(PE / DE Buffer),并针对不同阶段设计了精细的数据流:

但就像前面提到的,“绕路”加载会带来新问题:比如搬运缓存的流量撞上了模型计算的通信,怎么办?

对此,DualPath 给出了两套优化方案:

首先是以计算网卡(CNIC)为中心的流量管理,强制所有流量通过配对的 CNIC 走 GPUDirect RDMA 路径。

在 InfiniBand 或 RoCE 网络中,利用虚拟层(VL / TC)技术,将推理通信设为“最高优先级”并预留 99% 带宽,让缓存搬运只能在间隙中“蹭”带宽,确保互不干扰。

其次是自适应请求调度器:调度器会盯着每个节点的磁盘队列长度和 Token 数。系统会优先将任务分配给 I/O 压力较小且计算负载较轻的节点,从根本上避免单侧网卡或单点计算资源的拥塞。

在实验阶段,DualPath 在 DeepSeek-V3、Qwen 等模型上进行了测试,场景覆盖了离线 Rollout 和在线服务。

如开头所说,在离线推理中,DualPath 将端到端吞吐量提高了高达 1.87 倍,在线服务吞吐量平均提升 1.96 倍,显著降低了首字延迟(TTFT),且保持了极其稳定的 Token 间延迟(TBT)。

总的来说,DualPath 证明了通过重新思考数据加载路径可以有效突破当前大模型推理的 I/O 墙。

它成功利用了解码引擎原本被浪费的 I/O 带宽,配合自适应调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体 LLM 推理系统的效率。

这篇论文的第一作者吴永彤,是北京大学的博士生,师从金鑫教授。

他的研究方向聚焦于系统软件与大模型基础设施(LLM Infrastructure),尤其是推理系统的工程优化与规模化部署。

他目前在 DeepSeek 系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化。

此前,他还曾在腾讯、华盛顿大学,微软亚研院等机构实习。

参考链接

本文来自微信公众号:量子位(ID:QbitAI),作者:henry,原标题《DeepSeek 新论文剧透 V4 新框架!用闲置网卡加速智能体推理性能,打破 PD 分离瓶颈

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片