2026 開年,OpenClaw 的現(xiàn)象級(jí)爆發(fā)使大模型迅速邁入「超長(zhǎng)上下文」時(shí)代。在幾乎人人手捧「龍蝦」穿梭于代碼、搜索、辦公自動(dòng)化的當(dāng)下,Token(詞元)消耗成本正在迅速累積。據(jù) OpenRouter 平臺(tái)數(shù)據(jù),2026 年 3 月單周 OpenClaw Token 消耗量占平臺(tái)總量的 20%。用戶實(shí)測(cè)單個(gè)會(huì)話的上下文可膨脹至 23 萬 Token;重度使用場(chǎng)景的月成本甚至高達(dá) 800-1500 美元。
這背后,是 Agent 架構(gòu)的全量記憶策略 —— 每一輪對(duì)話請(qǐng)求都必須攜帶歷史上下文,導(dǎo)致 Token 消耗隨輪次呈滾雪球式增長(zhǎng)。
此時(shí),KV Cache 的管理方式便成為影響推理效率與成本的關(guān)鍵變量。若無法有效復(fù)用歷史 KV Cache,系統(tǒng)將重復(fù)執(zhí)行 Prefill 計(jì)算 —— 不僅帶來了不必要的 Token 成本花銷,也會(huì)顯著拉長(zhǎng)首 Token 時(shí)延(TTFT)。因此,通過提升上下文緩存命中率來降低用戶使用成本以及通過減少重復(fù) Prefill 計(jì)算來降低 TTFT,成為 KV Cache 優(yōu)化的核心方向。
百度(K89888)智能云旗下百度(K89888)百舸團(tuán)隊(duì)近日推出了一套自主研發(fā)的 KV Cache 系統(tǒng) —— AttentionStore,并基于昆侖芯 P800 在 DeepSeek 模型上完成系統(tǒng)驗(yàn)證:在 8K+ 長(zhǎng)上下文場(chǎng)景中,TTFT 實(shí)現(xiàn)了 2 至 5 倍的性能提升;而在 64K 長(zhǎng)上下文場(chǎng)景下,TTFT 性能提升至 6.2 倍,顯著增強(qiáng)了大模型在長(zhǎng)上下文歷史條件下的 Token 響應(yīng)能力。
顯存瓶頸:長(zhǎng)上下文推理的隱形天花板
在當(dāng)前主流推理引擎(如 SGLang、vLLM 等)中,KV Cache 通常被視為一種僅存在于顯存中的短生命周期(883436)數(shù)據(jù)結(jié)構(gòu)。其設(shè)計(jì)目標(biāo)很明確:在一次請(qǐng)求的解碼階段復(fù)用歷史 Key / Value,避免重復(fù)計(jì)算;一旦請(qǐng)求結(jié)束或被調(diào)度器回收,KV Cache 便會(huì)被整體釋放,以保證顯存能夠服務(wù)更多并發(fā)請(qǐng)求。
然而,隨著多輪對(duì)話等長(zhǎng)上下文場(chǎng)景的興起,推理系統(tǒng)中所能容納的 KV Cache 體量逐漸成為了決定系統(tǒng)性能的核心變量。此時(shí),僅依靠顯存承載的 KV Cache 體量遠(yuǎn)遠(yuǎn)不能滿足長(zhǎng)下文推理場(chǎng)景下的會(huì)話響應(yīng)要求。
要準(zhǔn)確評(píng)估 KV Cache 存儲(chǔ)的瓶頸,就需要綜合分析「單個(gè) Token 所需的 KV 緩存開銷」、「可存放 KV Cache 的顯存容量」、以及「長(zhǎng)上下文的會(huì)話長(zhǎng)度」。
當(dāng)前,KV 緩存的計(jì)算公式與模型規(guī)模、模型層數(shù)、數(shù)據(jù)精度、以及所采用的注意力頭結(jié)構(gòu)相關(guān)。以 Qwen3-32B 模型為例,其采用 GQA 結(jié)構(gòu),在 FP16 精度下,單 Token 所需的 KV 緩存開銷約為 0.25MB,對(duì)于一個(gè) 80GB 顯存的加速卡來說,除去模型權(quán)重需占用的 60GB 以及 runtime buffer、臨時(shí)算子、并發(fā)數(shù)等占用的約 5g(885556)B~10GB 后,僅剩余的 10GB 顯存最多容納約 40K Tokens。
而以 LLaMA-13B 模型為例,其采用 MHA 結(jié)構(gòu),在 FP16 精度下,單 Token 所需的 KV 緩存開銷約為 0.8MB,在 80GB 顯存的加速卡中,僅剩余的 40GB 顯存最多容納約 48K Tokens。
然而,在諸如 OpenClaw 等長(zhǎng)上下文的真實(shí)業(yè)務(wù)場(chǎng)景中,受到多輪對(duì)話、多并發(fā)用戶因素的影響,會(huì)話長(zhǎng)度可達(dá) 64K,甚至 128K。此時(shí),顯存容量的有限空間就使得系統(tǒng)經(jīng)常需要重新計(jì)算歷史 Token 的 KV 值,引起極大的推理時(shí)延。
為了解決顯存無法容納長(zhǎng)上下文業(yè)務(wù)場(chǎng)景所需存放的 KV Cache 問題,業(yè)內(nèi)普遍采用了 KV Cache Offload 方案 —— 它提供了一種兼具性能與成本效益的技術(shù)路徑:將歷史 KV Cache 從昂貴的顯存中遷移至更具性價(jià)比的存儲(chǔ)介質(zhì)(如內(nèi)存、SSD 等),在會(huì)話延續(xù)時(shí)按需加載實(shí)現(xiàn)數(shù)據(jù)復(fù)用。然而,在將這一方案大規(guī)模落地到生產(chǎn)業(yè)務(wù)過程中,還需要解決三個(gè)關(guān)鍵問題:
首先,調(diào)度系統(tǒng)要如何匹配到最優(yōu)節(jié)點(diǎn),避免昂貴的重復(fù)計(jì)算開銷:傳統(tǒng)調(diào)度系統(tǒng)無法感知緩存的全景分布與介質(zhì)狀態(tài),存在嚴(yán)重的調(diào)度盲區(qū)。這導(dǎo)致請(qǐng)求往往被分發(fā)至無緩存節(jié)點(diǎn),觸發(fā)大規(guī)模重復(fù)計(jì)算與存儲(chǔ)冗余,難以發(fā)揮分布式緩存的集群效應(yīng)。
其次,如何提升多級(jí)緩存間的數(shù)據(jù)搬運(yùn)效率,加快響應(yīng)速度:傳統(tǒng)方案難以針對(duì)異構(gòu)芯片的底層訪存特性進(jìn)行深度優(yōu)化,在多級(jí)存儲(chǔ)介質(zhì)(HBM - DRAM - SSD)之間搬運(yùn)動(dòng)態(tài)數(shù)據(jù)時(shí),數(shù)據(jù)通路效率低下,極易引入額外的傳輸時(shí)延,抵消掉復(fù)用緩存帶來的性能增益。
另外,會(huì)話中斷后,如何避免 KV Cache 丟失:傳統(tǒng)方案中,緩存管理與推理進(jìn)程強(qiáng)耦合:一旦推理引擎進(jìn)程退出或異常重啟,緩存數(shù)據(jù)即刻失效。
AttentionStore —— KV Cache 全局調(diào)度與高效流轉(zhuǎn)系統(tǒng)
正是由于上述問題的存在,KV Cache Offload 并不能僅停留在「存儲(chǔ)遷移」層面,而必須在調(diào)度、數(shù)據(jù)通路與緩存管理機(jī)制上進(jìn)行系統(tǒng)性升級(jí)。
在這一背景下,百度(K89888)百舸構(gòu)建了 KV Cache 分布式緩存管理體系 AttentionStore,并基于昆侖芯硬件平臺(tái)進(jìn)行了深度適配與調(diào)優(yōu)。
AttentionStore 通過在推理集群層面實(shí)現(xiàn)多維感知與精準(zhǔn)調(diào)度,以及在執(zhí)行節(jié)點(diǎn)中加快緩存數(shù)據(jù)的傳輸效率,AttentionStore 可實(shí)現(xiàn)高達(dá) 80% ~ 90% 的 KV Cache 緩存命中率,大幅降低推理成本;并系統(tǒng)性減少重復(fù) Prefill 計(jì)算開銷,顯著降低 TTFT。
為了保障 KV Cache 服務(wù)連續(xù)性,我們將 AttentionStore 與推理引擎解耦,以獨(dú)立進(jìn)程的形式運(yùn)行在每個(gè)推理節(jié)點(diǎn)上,當(dāng)推理進(jìn)程重啟、故障恢復(fù)或版本升級(jí)時(shí),KV Cache 依舊可以穩(wěn)定保存在 AttentionStore 管理的存儲(chǔ)空間中,可在后續(xù)推理中重新加載使用。同時(shí),AttentionStore 采用共享內(nèi)存和 SSD 作為主機(jī)緩存介質(zhì),其自身重啟后可通過本地索引表快速實(shí)現(xiàn)數(shù)據(jù)恢復(fù),實(shí)現(xiàn)服務(wù)升級(jí)與維護(hù)期間業(yè)務(wù)無感切換。
KV Cache 全局感知,優(yōu)化推理調(diào)度決策鏈
在實(shí)際生產(chǎn)環(huán)境中,推理請(qǐng)求往往運(yùn)行在多節(jié)點(diǎn)、多實(shí)例的分布式架構(gòu)之上。若推理調(diào)度器對(duì)緩存分布無感知,僅依據(jù)不同實(shí)例的狀態(tài)及負(fù)載等因素進(jìn)行調(diào)度決策,極易出現(xiàn)「請(qǐng)求被調(diào)度至無緩存節(jié)點(diǎn)」的情況,從而觸發(fā)完整的 Prefill 重算,使得 Offload 帶來的性能收益被完全抵消。
為此,憑借行業(yè)領(lǐng)先的 KV Cache 多維感知,我們?cè)谕评砑簝?nèi)構(gòu)建了實(shí)時(shí) KV Cache 全局索引視圖;并將 KV Cache 納入調(diào)度決策,使調(diào)度從「只看資源」升級(jí)為「資源與緩存協(xié)同決策」。
全局 KV Cache 索引:我們?cè)谌謱用鎱R聚了各推理節(jié)點(diǎn)的 KV Block(XYZ) 信息,包括 Block(XYZ)Hash、所在存儲(chǔ)介質(zhì)(HBM / DRAM / SSD)等元數(shù)據(jù),并實(shí)時(shí)捕捉 KV Cache 的創(chuàng)建與銷毀事件,從而精準(zhǔn)掌握最新的全局 KV Cache 索引,形成 Host → Block(XYZ)s 映射關(guān)系;
調(diào)度決策優(yōu)化:在具備全局感知能力之后,KV Cache 的命中情況被正式納入調(diào)度決策路徑。在原有基于負(fù)載與健康狀態(tài)篩選候選節(jié)點(diǎn)的基礎(chǔ)上,調(diào)度器會(huì)根據(jù)請(qǐng)求上下文,將調(diào)度目標(biāo)先收斂到具備高緩存命中率的節(jié)點(diǎn)集合,并結(jié)合命中長(zhǎng)度以及緩存所在存儲(chǔ)介質(zhì)(HBM / DRAM / SSD)的讀取效率,對(duì)候選節(jié)點(diǎn)進(jìn)行綜合打分。
最終,推理集群調(diào)度不再僅以「是否可用」為標(biāo)準(zhǔn),而是以「是否最優(yōu)」為目標(biāo) —— 將請(qǐng)求優(yōu)先分配至緩存命中率更高、數(shù)據(jù)加載速度更快的節(jié)點(diǎn),在保障負(fù)載均衡的前提下,最大化 KV Cache 復(fù)用價(jià)值,系統(tǒng)性降低重復(fù) Prefill 開銷,并顯著優(yōu)化 TTFT 表現(xiàn)。
KV Cache 多級(jí)緩存優(yōu)化,加速數(shù)據(jù)傳輸效率
實(shí)現(xiàn) KV Cache 的全局感知與精準(zhǔn)調(diào)度,解決了長(zhǎng)上下文推理中緩存「調(diào)度匹配」的核心問題;而在多級(jí)緩存體系中,跨介質(zhì)的數(shù)據(jù)傳輸效率與多數(shù)據(jù)傳輸?shù)牟⑿心芰?,是決定 KV Cache 復(fù)用性能的另一關(guān)鍵因素。為此,百度(K89888)百舸通過 AttentionStore 對(duì) KV Cache 的全生命周期(883436)數(shù)據(jù)通路進(jìn)行了深度優(yōu)化,構(gòu)建了高效的多級(jí)緩存體系,實(shí)現(xiàn)跨介質(zhì)數(shù)據(jù)傳輸?shù)娜婕铀佟?/p>
在典型的長(zhǎng)文本推理場(chǎng)景下,KV Cache 在 HBM、DRAM、SSD 多級(jí)緩存體系中的數(shù)據(jù)流轉(zhuǎn)遵循以下邏輯:
請(qǐng)求到達(dá)時(shí),Prefill 節(jié)點(diǎn)優(yōu)先嘗試從顯存 KV Cache 中匹配;
若顯存未命中,將借助節(jié)點(diǎn)間的 KV Cache 池化能力快速將緩存數(shù)據(jù)遷移至目標(biāo) Prefill 節(jié)點(diǎn)的主機(jī)內(nèi)存;仍未命中的部分則由 Prefill 節(jié)點(diǎn)即時(shí)計(jì)算生成;
Prefill 節(jié)點(diǎn)生成的 KV 傳輸至 Decode 節(jié)點(diǎn),并異步回寫至主機(jī)內(nèi)存 / SSD;
Decode 節(jié)點(diǎn)在推理過程中新生成的 KV 增量,異步回寫至 Prefill 節(jié)點(diǎn)的主機(jī)內(nèi)存 / SSD。
針對(duì)上述鏈路中的讀取、寫入及傳輸環(huán)節(jié),我們實(shí)施了如下針對(duì)性優(yōu)化:
昆侖芯底層原生適配:面向昆侖芯 XPU 架構(gòu),進(jìn)行了 AttentionStore 方案的深度適配 —— 針對(duì) KV Cache 在顯存、內(nèi)存與 SSD 之間高頻流轉(zhuǎn)的特征,通過調(diào)用 XPU 原生 API,對(duì)數(shù)據(jù)搬運(yùn)、緩存訪問及執(zhí)行調(diào)度等關(guān)鍵路徑進(jìn)行專項(xiàng)優(yōu)化,從而充分發(fā)揮昆侖芯在帶寬與訪存效率上的硬件能力。同時(shí),借助統(tǒng)一的硬件抽象與適配層,確保了底層指令集的無縫切換,由此,上層業(yè)務(wù)無需關(guān)注具體運(yùn)行在何種硬件架構(gòu)之上,即可獲得一致的緩存復(fù)用能力與性能表現(xiàn),實(shí)現(xiàn)了跨硬件環(huán)境的平滑運(yùn)行;
KV Cache 讀取加速:在 HBM、DRAM 與 SSD 混合命中的場(chǎng)景下,傳統(tǒng)的 KV Cache 讀取采用串行邏輯(如下圖左側(cè)「AttentionStore 優(yōu)化前」所示),這種方式的讀取耗時(shí)較長(zhǎng)。對(duì)此,通過將 KV Cache 的讀取過程拆分為并行任務(wù) —— 讓高速介質(zhì)與低速介質(zhì)同步發(fā)起傳輸(如下圖右側(cè)「AttentionStore 優(yōu)化后」所示),最大程度縮短全部 KV Cache 的讀取耗時(shí)。此外,將 AttentionStore 管理的共享內(nèi)存標(biāo)記為大頁(yè)內(nèi)存,顯著減少頁(yè)表項(xiàng)數(shù)量,降低地址轉(zhuǎn)換開銷,提高內(nèi)存訪問效率;同時(shí),通過全生命周期(883436)鎖頁(yè)操作,避免 KV Cache 數(shù)據(jù)在傳輸過程中被換出,減少額外的內(nèi)存拷貝與頁(yè)錯(cuò)誤開銷,使數(shù)據(jù)能夠以更穩(wěn)定、更高帶寬的方式直達(dá)顯存。實(shí)測(cè)顯示,DRAM 到 HBM 的通信效率較基線提升了 4 倍,讓 DRAM 與 SSD 中的緩存數(shù)據(jù)能夠更快進(jìn)入顯存參與計(jì)算;
KV 傳輸加速:為了提高 KV 在 Prefill-Decode 節(jié)點(diǎn)間的傳輸效率,首先在推理引擎之外,引入基于 C++ SDK 的高性能數(shù)據(jù)通路,對(duì) KV Cache 的傳輸過程進(jìn)行獨(dú)立管理與優(yōu)化。具體而言,通過 C++ SDK 擴(kuò)展,將 KV 數(shù)據(jù)的序列化、打包與跨節(jié)點(diǎn)傳輸?shù)炔僮鲝耐评碇鬟M(jìn)程中解耦出來,并交由獨(dú)立的異步線程池負(fù)責(zé)執(zhí)行,使 KV 傳輸與模型計(jì)算形成并行流水線,避免二者的相互阻塞。其次,在數(shù)據(jù)流傳路徑上,我們進(jìn)一步對(duì) KV 的回寫與 P、D 節(jié)點(diǎn)間傳輸流程進(jìn)行了重構(gòu):傳統(tǒng)模式下,P 節(jié)點(diǎn)會(huì)先將 KV Cache 完整回寫至內(nèi)存 / SSD,再將其傳輸至 D 節(jié)點(diǎn);在 AttentionStore 中,我們將這一過程拆分為多個(gè)細(xì)粒度任務(wù),通過異步機(jī)制實(shí)現(xiàn)「寫回與傳輸同步進(jìn)行」。借此,在保障推理任務(wù)連續(xù)執(zhí)行的同時(shí),顯著提升 KV Cache 的跨節(jié)點(diǎn)傳輸效率。
實(shí)踐效果:超長(zhǎng)上下文場(chǎng)景下的性能飛躍
在 PD 分離推理架構(gòu)中,我們基于 DeepSeek R1 671B 模型,在昆侖芯 P800 集群環(huán)境中對(duì) AttentionStore 的 KV Cache Offload 方案進(jìn)行了系統(tǒng)驗(yàn)證。
環(huán)境及配置:2 臺(tái) Prefill 節(jié)點(diǎn),TP4 / DP4 并行配置。
驗(yàn)證效果:
當(dāng)上下文長(zhǎng)度達(dá)到 8K 以上時(shí),AttentionStore 的 TTFT 指標(biāo)具有 50%~80% 的穩(wěn)定優(yōu)化收益;
多輪對(duì)話場(chǎng)景中,通過避免重復(fù) Prefill 并提升 Prefill 節(jié)點(diǎn)的可復(fù)用性,系統(tǒng)整體吞吐量提升了 5.4 倍;
在 64K 長(zhǎng)上下文場(chǎng)景中,相較于推理引擎默認(rèn) Chunk-Prefill 緩存策略,基于 AttentionStore 的 KV Cache Offload 方案顯著減少了歷史上下文的 Prefill 重算開銷,使 TTFT(首 Token 時(shí)延)降低 6.2 倍;
Agent 將大模型推理全面帶入長(zhǎng)上下文與多輪交互時(shí)代,百度(K89888)百舸的 AttentionStore 讓 KV Cache 從「短暫的顯存數(shù)據(jù)結(jié)構(gòu)」演進(jìn)為「可持久、可調(diào)度、可規(guī)模化復(fù)用的系統(tǒng)資源」,通過對(duì)昆侖芯底層算力的深度調(diào)優(yōu)與推理框架的無縫集成。百舸這套系統(tǒng)成功實(shí)現(xiàn)了更優(yōu)的 TTFT 響應(yīng)與更低的成本開銷,成為百度(K89888)智能云助力大規(guī)模國(guó)產(chǎn)化算力落地構(gòu)筑的堅(jiān)實(shí)底座。
