项目概览

这个项目验证一个问题：

agentic coding workload 里，如果 router 更懂 session 和 KV cache，P/D serving 的端到端延迟能不能更低。

当前基于：

设计

代码按两层分开：

这样后续可以单独改 routing policy，不把它和 SGLang/xPyD 机制混在一起。

单机 P/D stack 启动和关闭。
本地 Python PD router。
Ali trace 加载、session 级采样、synthetic prompt 生成。
按 trace 原始到达时间 replay，不用固定 concurrency 强行压流量。
request-level metrics 和 summary。
路由策略：
- default
- sticky
- kv-aware
serving 机制：
- pd-disaggregation
- kvcache-centric
- pd-colo
micro-benchmark trace 生成。
worker-managed / router-managed KV admission 对比。
worker-managed 下的 D session soft-cap，避免所有 session 都挤进 D KV。
SGLang patch：
- decode worker 支持 PD mode 下 local append-prefill；
- 暴露 streaming session cache 状态；
- 支持按 session 粒度 evict idle streaming session；
- 支持 direct append admission 查询。

micro-benchmark 上，kvcache-centric 可以比 pd-disaggregation 好。

原因很简单：session 少，D KV 放得下，turn2+ 可以直接走 D session，省掉一部分 P/D 路径开销。

但在 300+ request、58 session 的测试上，情况不同：

当前 soft-cap 优化后：

当前判断：

KV-cache-centric 只应该保留真正 hot 的 session。不是所有 session 都值得占 D KV。

下一步最有价值的是：

third_party/sglang 已纳入主仓库。

历史结构：

后续改 SGLang 时：