obsidian/projects/kvcachecache/pub-news.md


目前，大语言模型（LLM）推理服务已成为云服务提供商的关键应用，而跨请求缓存中间结果（KVCache）能够显著提升系统吞吐量并降低响应延迟；然而，现有研究多基于合成负载，尚未充分揭示真实生产环境下 KVCache 的作用机制，例如缓存驱逐策略等系统决策高度依赖于工作负载。为此，本工作依托于阿里巴巴通义实验室，对通义千问在线服务的全量真实工作负载进行了脱敏采集与深入分析，发现单轮请求与多轮对话之间的缓存重用同等重要却表现各异，不同请求类型下的缓存重用时间窗口与概率虽差异显著，但对于某一固定类型的请求，其缓存重用模式高度可预测；且在 API 主导的场景中，容量有限的 GPU 本地缓存已足以满足需求。基于这些针对真实负载的观察，我们设计了一种基于工作负载感知的缓存驱逐策略，使缓存命中率由 14.5% 提升至 18.5%，首词时延（TTFT）缩短约 25%，从而在真实业务场景下大幅提升了服务性能。


xingda version:
KVCache 缓存是当今大模型推理系统的关键组件，其系统设计与缓存特征密切相关。在本研究中，我们与阿里通义实验室合作，深入分析了千问线上脱敏的 KVCache 缓存特征。我们发现了几个全新的见解，包括：单轮对话场景也高度依赖 KVCache 缓存，不同负载的缓存分布在各时间段呈现规律性特征等。基于这些观察，我们设计了一种新型的负载感知的 KVCache 缓存替换策略，在真实数据集上将缓存命中率从 14.5% 提升至 18.5%，同时将首词时延（TTFT）减少 25%。