sycnnj
发布于 2026-03-04 / 12 阅读
0
0

DeepSeek联合清北发布DualPath:重构双路径KV缓存,击碎智能体时代的存储带宽墙

关键词组:DeepSeek, DualPath, KV缓存 (KV Cache), 智能体 (Agent), 预填充-解码分离 (PD Separation), 远程直接内存访问 (RDMA), 存储带宽墙 (Storage Bandwidth Wall), 大模型推理引擎 (LLM Inference Engine)

内容摘要:智能体时代的爆发让大模型推理面临极端的长上下文考验,计算不再是唯一瓶颈,海量KV缓存的加载引发了致命的“存储带宽墙”。DeepSeek联合清华、北大推出DualPath架构,打破传统PD分离架构的单一加载路径,创新引入“存储→解码→预填充”双路径机制,利用闲置网卡带宽实现全局级I/O负载均衡。实测在线吞吐量提升近2倍。本文将从前沿技术演进、底层网络架构设计及一线运维视角,深度拆解DualPath的核心优势与未来趋势。


作为一名长期跟踪底层算力架构的前沿科技记者,同时结合多年在大型系统工程和基础运维领域的实战经验,我近期密切关注到了大模型推理底层的一场静悄悄的革命。近日,DeepSeek团队联合清华大学、北京大学计算机学院,正式发表了名为《DualPath:突破智能体LLM推理中的存储带宽瓶颈》的重磅学术论文。这项技术没有去死磕模型参数或强行堆叠算力,而是以一种极其精妙的系统工程思维,解决了一个正在扼杀智能体(Agent)系统性能的致命隐患——KV缓存(Key-Value Cache)加载带来的存储带宽瓶颈。

在过去的一年里,我们见证了DeepSeek陆续放出的MHA(多头注意力机制)、OCR2R等硬核技术成果。而这次的DualPath,其意义绝不亚于任何一次算法升级。它标志着大语言模型(LLM)的底层基础设施建设,正从单纯的“算力崇拜”(追求极限的FLOPS)正式迈向“系统协同”(追求极致的I/O带宽与全局资源调度)的新阶段。接下来,我们将硬核拆解DualPath的技术演进脉络、架构创新优势,并探讨其对未来技术趋势的深远影响。

一、 技术演进的必然:从算力饥渴到I/O焦虑

要理解DualPath的价值,我们必须先看懂当前大模型应用形态的剧变。

过去,大语言模型的主要交互形态是单轮或少量轮次的问答(Chatbot模式)。用户输入一段提示词(Prompt),模型经过计算生成一段文本,一次会话就此终结。在这种模式下,系统的性能瓶颈毫无疑问集中在计算能力上,即GPU的矩阵乘法效率和核心算力。

然而,当前的行业前沿正在迅猛地向智能体(Agent)系统演进。无论是自主编写代码的AI程序员助手,还是能够跨环境自动执行复杂任务的自主智能体,它们的交互模式发生了本质的改变。智能体往往需要在几十甚至上百轮的持续交互中,不断调用浏览器、Python解释器(Python Interpreter)等外部工具,根据环境反馈一步步完成既定目标。

在这种“人类-模型-环境”的三方高频交互模式下,大模型处理的不再是孤立的、极短的提示词,而是一个呈指数级持续增长的长上下文(Long Context)。每一轮新的交互,可能仅仅新增了几百个词元(Token),但这些增量内容会不断地向后追加、累积,最终形成极其庞大且必须被模型全盘掌握的历史记忆。

这时候,技术底层发生了一个极其微妙但致命的变化。在Transformer架构中,为了避免重复计算已经处理过的历史文本,系统会将每一层注意力机制计算出的键值对(Key-Value对)存储下来,这就是所谓的KV缓存(KV Cache)。在智能体多轮追加对话的场景下,历史上下文绝大部分都是重复的,这意味着KV缓存的命中率通常可以高达95%以上。

这是一个让人喜忧参半的现象。喜的是,高达95%的计算量被省去了,GPU的算力得到了解放;忧的是,计算虽然免了,但要把这海量的、动辄几十GB甚至上百GB的KV缓存从外部存储重新加载到GPU显存中,变成了一场灾难。

在智能体高频的并发请求下,推理系统迅速呈现出极端的“高I/O密集型”特征。决定整个集群吞吐量上限的,不再是你的英伟达(NVIDIA)GPU算得有多快,而是你的存储网卡和总线能不能把堆积如山的KV缓存及时搬运过来。这道横亘在算力面前的无形障碍,就是大模型时代的“存储带宽墙”。

二、 拆解PD分离架构的“阿喀琉斯之踵”

为了应对日益庞大的推理需求,目前业界主流且最先进的推理部署方案被称为“预填充与解码分离架构”(Prefill-Decode Separation,简称PD分离)。要看懂DualPath的精妙,必须先彻底认清PD分离架构的先天结构性缺陷。

在大模型的推理过程中,分为两个截然不同的阶段:

  1. 预填充阶段(Prefill Phase):一次性吞下用户输入的所有历史文本,并行计算出所有的KV缓存。这是一个典型的“计算密集型”且“高I/O吞吐密集型”任务。

  2. 解码阶段(Decode Phase):基于预填充阶段的结果,自回归地一个词元(Token)接一个词元地生成回答。这是一个典型的“访存密集型”且对“延迟极度敏感”的任务。

既然两者的脾气秉性完全不同,传统的做法是将它们混在一个GPU节点上处理,但这会导致严重的资源互相挤占。于是,PD分离架构应运而生——将GPU集群一分为二,一部分节点专门负责“预填充”(我们称之为预填充引擎,PE),另一部分专门负责“解码”(解码引擎,DE)。

这种分离在过去非常奏效,但在长上下文的智能体时代,却暴露出了致命的“阿喀琉斯之踵”。

在智能体负载下,由于历史上下文极长,预填充引擎(PE)每次接客,都需要从底层存储系统中狂抽海量的KV缓存。这就导致PE节点上的存储网卡(Storage NIC)长期处于100%跑满的红线状态,直接卡死了整个集群的吞吐咽喉。

而此时,隔壁的解码引擎(DE)在干什么呢?DE节点只负责根据传过来的数据,慢条斯理地逐个生成Token。它对存储带块的需求极低,其节点上的存储网卡常年处于极度空闲、资源大量闲置的尴尬状态。

作为拥有多年底层架构运维经验的技术从业者,我见过太多这样的性能陷阱:系统整体看起来很慢,老板急着批预算买更多的高配计算节点。但如果你通过监控面板去深入抓包分析,就会发现:一边是强悍的GPU在嗷嗷待哺苦等数据,网卡严重拥塞导致丢包重传;另一边却是大量节点的网络资源被白白浪费。

这种结构性的失衡,使得系统的整体吞吐量被预填充引擎的单一存储I/O瓶颈死死掐住。虽然在理论上,你可以简单粗暴地为PE节点插上更多的高速网卡、扩容PCI-e通道带宽,但在通用的算力集群环境中,受限于主板物理插槽、网络交换机端口以及极其高昂的硬件采购成本,这种“单点暴力扩容”的方案根本无法大规模落地。

三、 DualPath核心解析:双路径加载机制的空间重构

正是在这样令人绝望的物理法则限制下,DeepSeek与清北团队提出了DualPath。这是一个教科书级别的软硬件协同设计方案,它不靠堆砌硬件,而是靠重构数据流动的空间路径来破局。

DualPath的核心洞见非常直击本质:KV缓存的加载,为什么非要在一棵树上吊死,只能由预填充引擎自己去拉取?

既然解码引擎(DE)的存储网卡闲着也是闲着,为什么不把这部分闲置的物理带宽利用起来,作为全系统的“带宽资源池”呢?

在DualPath架构下,系统打破了原有的单一数据流向,构建了创新的双路径(Dual-Path)机制:

  • 路径 A(传统单一路径,Path P):数据直接从底层分布式存储系统,通过网络读取到预填充引擎(PE)中。这是老规矩。

  • 路径 B(新增中转路径,Path D→P):数据先从存储系统读取到闲置的解码引擎(DE)中,DE将其暂存在自己的内存/显存中,然后再通过极高带宽、极低延迟的RDMA(远程直接内存访问,Remote Direct Memory Access)网络,高速转发给预填充引擎(PE)。

这两条路径并不是非此即彼的,而是由一个全局的中央动态调度器(Central Scheduler)根据集群的实时负载情况,进行极其精细的流量分配。

这就好比一个物流中心(存储),要把海量货物送到A仓库(PE)。以前只有一条直达公路,天天堵车。而B仓库(DE)由于平时进货少,它专属的公路非常空荡。DualPath的做法就是:让一部分货物先运到B仓库,然后再通过A、B仓库之间修建的内部高速通道(RDMA网络)转运到A仓库。通过这种“绕路”,反而彻底盘活了全局的运输能力。

本质上,DualPath完成了一次对系统IO资源的深度“劫持”与再分配。它巧妙地利用了现代AI数据中心(如类似DGX SuperPOD的架构)普遍具备的物理特性:计算网卡(用于GPU间通信的RDMA网卡)的带宽往往远大于存储网卡,且在很多阶段并未完全跑满。DualPath通过消耗一部分冗余的计算网络带宽,置换出了极其宝贵的存储I/O带宽,彻底解决了KV缓存拉取的负载失衡问题。

四、 直击生产环境:三大工程挑战与化解之道

任何看似完美的理论架构,在真实残酷的生产环境中都会面临无数个可能导致系统崩溃的“暗礁”。作为底层运维老兵,我深知将这种复杂的跨节点流量重定向落地,绝非写几行代码那么简单。DeepSeek在论文中披露的工程细节,展现了其极深的技术功底。

挑战一:流量冲突与网络拥塞(Traffic Interference) 路径B引入了大量额外的KV缓存转发流量,这些大块头的数据流在RDMA网络中穿梭,极易与模型推理过程中原本就存在的高频、对延迟极度敏感的张量并行(Tensor Parallelism)通信发生碰撞。一旦发生微秒级的网络拥塞(Incast),解码生成的首字延迟(TTFT)就会急剧飙升,整个系统的实时响应性将面临崩溃。

破局之道:以计算网卡为核心的流量隔离机制。 DualPath设计了严密的流量管理器。它在物理和逻辑层面对流量进行了严格分流。KV缓存的传输被精确控制并与核心的计算通信任务隔离开来。在支持RDMA特性的网络中,运维层面通常会结合RoCEv2(基于融合以太网的RDMA)的QoS(服务质量)策略,利用PFC(优先级流量控制)和ECN(显式拥塞通知)机制,确保推理心跳和同步信号具有绝对的高优先级,而大块的缓存中转数据则在后台填补带宽空隙,做到“润物细无声”。

挑战二:异构与动态的负载波动 在真实的在线服务中,用户请求的到达是随机的,有的请求长达十几万词元,有的只有几千词元;预填充和解码的比例在每分每秒都在剧烈波动。固定的路由规则根本无法应对。

破局之道:毫秒级的全局动态调度器。 系统引入了一个极轻量级(占用CPU极低)但极其聪明的中央大脑。它能实时监控每一个引擎的GPU显存占用、存储网卡队列深度以及RDMA链路负载。当PE节点的存储I/O开始出现排队预兆时,调度器会瞬间将后续的KV缓存拉取请求重定向至当前最闲置的DE节点,实现计算与网络资源的联合负载均衡(Joint Load Balancing)。

挑战三:KV缓存的碎片化 在多轮对话中,KV缓存并不是连续整块存储的,而是像内存碎片一样散落在底层分布式文件系统的各个角落。这种细粒度的数据提取,会带来极高的寻址开销。

破局之道:深度优化的底层存储与内核旁路(Kernel Bypass)。 DeepSeek在这个方案中底座使用了其自研的3FS(Fire-Fly File System)分布式存储系统,并配合内核旁路技术。懂系统底层优化的同行都知道,传统的文件读取需要经过操作系统内核的用户态和内核态的频繁切换,这对于高吞吐的AI网络是致命的损耗。通过直接在用户态操控网卡拉取数据,DualPath将数据传输开销压榨到了极致,并且实现了与GPU计算任务的无缝重叠(Overlapping)。

五、 硬核实测数据验证与集群架构剖析

为了验证DualPath的威力,研究团队搭建了一个极其奢华且纯粹的测试环境,旨在完全排除其他变量的干扰,直击I/O核心。

测试集群采用了顶配规格:多达1152张的NVIDIA Hopper架构GPU集群。每个计算节点不仅包含8张GPU,还配备了8张高达400Gbps带宽的RDMA网卡(用于节点间计算通信)。除此之外,每个节点还单独配备了一张连接3FS底座的存储网卡。请注意这个关键的运维细节:计算网络与存储网络在物理上是完全隔离的。 并且,3FS集群故意去掉了DRAM缓存层,确保存储带宽可以硬生生地跑满400Gbps的极限,就是为了看看在这种高压下,加了DualPath的系统能撑多久。

测试覆盖了最具代表性的前沿大模型架构:包括采用MoE(混合专家)架构的DeepSeek V3系列(内部670B全量版及27B降维测试版),以及采用稠密(Dense)架构的Qwen 2.5 32B模型。涵盖了从离线强化学习推演到在线实时并发服务的全场景。

实测数据堪称惊艳: 在离线场景(模拟强化学习训练中多个智能体同时并发推演的环境)下,当处理的长上下文(Batch Size越大,上下文越长)挑战达到极限时,未开启DualPath的传统系统(如基于SGL+Mooncake的配置)甚至因为I/O超时而无法稳定跑完任务。而在660B的巨型模型上,DualPath将整个作业的完成时间最高缩短了1.87倍!这几乎逼近了在“零I/O开销”理论极限下才能达到的成绩。

在更贴近实际业务的在线服务场景中,使用44P88D(44个预填充节点,88个解码节点)的大规模配置下,DualPath在保证首字延迟(TTFT)和Token间生成时间(TPOT)均不劣化的严苛前提下,将系统的每秒智能体运行吞吐量平均提升了1.96倍

更有意思的是扩展性测试。从仅有2K智能体并发的小规模2P4D集群,一路暴力横向扩展到包含1152张GPU的48P96D超大规模集群,DualPath展现出了完美的“近线性扩展”能力,任务的平均处理时间几乎保持稳定,没有出现因为集群变大而导致的网络协调损耗剧增。

这些冷冰冰的数据背后,揭示了一个宏观且不可逆的判断:在长上下文智能体负载下,大模型算力(FLOPS)已经不再是决定生死的唯一因素。真正限制上限的,是KV缓存的加载路径设计,以及整个集群存储I/O带宽的宏观调配能力。

六、 未来趋势:百万上下文与V4时代的破局底座

跳出论文的细节,我们不妨把目光放得更长远一些。

目前行业内已经有大量的风声传出,DeepSeek即将推出的V4版本模型,极有可能支持高达100万Token的超长上下文窗口,并且采用原生的多模态(Multi-modal)架构。如果传言非虚,这意味着什么?

百万级的上下文长度一旦普及,哪怕是单次会话,其产生的KV缓存体积也将呈指数级膨胀(例如,从几个GB瞬间跃升至上百GB)。如果是多模态输入(高清图像、甚至长视频),其特征张量的数据量更是令人头皮发麻。在这种恐怖的数据海啸面前,现有的任何单一加载路径都会瞬间被摧毁。

此时再回头看DualPath的发布,你会发现这绝不是一次随意的技术炫技,而是在为即将到来的“百万上下文+原生多模态智能体”时代提前铺设最重要的铁轨。

更长上下文 = 呈数量级增长的KV缓存 = 极其恐怖的存储I/O吞吐压力。 而化解这种压力的唯一解法,正是类似于DualPath这种从系统级切入的“带宽路径重构与池化机制”。

可以预见,随着智能体应用在千行百业的深入落地,AI基础设施的竞争规则已经被改写。未来的算力霸主,不仅仅是能够设计出参数量最大的模型的人,更是能够像精密钟表匠一样,把集群中每一根PCI-e通道、每一个网卡端口的潜力都压榨到极致的人。DualPath的开源理念和技术思想,必将深刻影响下一代AI推理芯片的互联架构以及数据中心的网络拓扑设计标准。

对于我们这些技术追随者而言,丢掉幻想,拥抱底层架构的精细化重构,或许是通向下一个AI高地的唯一路径。


快速参考附录:大模型推理网络架构调优关注点

为方便技术同仁在评估或搭建高吞吐Agent推理集群时参考,特整理以下核心调优关注点(注:非执行代码,为架构设计参数域):

  1. 网络平面隔离(Network Isolation)

    • 管理网、存储网、计算通信网(RDMA)必须实现物理或严格的VLAN级隔离。

    • 存储网卡(如连接3FS等并行文件系统)建议带宽不低于200Gbps,并开启内核旁路功能(Kernel Bypass)。

  2. RDMA与RoCEv2核心参数池(需根据交换机型号深度压测)

    • PFC (Priority Flow Control): 必须为不同类型的流量(如KV缓存搬运流量与计算同步流量)划分不同的优先级队列(Traffic Classes)。

    • ECN (Explicit Congestion Notification): 结合DCQCN算法,设定合理的水位线(Watermark),防止大规模突发数据包打满交换机Buffer。

  3. 异构负载监控指标(监控面板必备)

    • 监控项应下钻至每节点、每网卡的实时收发队列深度(Queue Depth)。

    • 严密关注预填充节点(PE)与解码节点(DE)的存储带宽不对称比率,以此作为触发动态流量重定向的阈值依据。

参考文献与来源

  1. DeepSeek团队联合清北发布DualPath系统,打破智能体推理存储瓶颈 - 新浪财经

  2. DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能,打破PD分离瓶颈 - 智源社区

  3. DeepSeek发布下一代技术!北大实习生立功 - 凤凰网科技

  4. DeepSeek-V4发布前夕,先迈出“关键一步”,打通智能体提速之路 - OFweek云计算


版权声明:本文首发于E路领航(blog.oool.cc),转载请注明出处。


评论