Files
agentic-pd-hybrid/docs/AUDIT_AND_ROADMAP_ZH.md
Gahow Wang 6cdea52f28 docs(audit): cross-branch audit + 3-milestone roadmap
Consolidates the state of the five working branches
(main / kvc-debug-journey-v1-to-v4 / feat/d-to-p-sync /
h200-cu130 / kvc-real-ali-iter-v1) into a single
collaborator-facing document.

Sections:
- §1 per-branch state
- §2 contributions a reviewer cannot refute
- §3 weaknesses (M1–M6 methodology, S1–S10 system,
      infra) ranked by how badly they hurt at OSDI/SOSP
- §4 3-milestone roadmap (defensible submission →
      production substrate → OSDI'27 increments)
- §5 GPU-free work queue (what subsequent commits
      in this branch deliver)

No code change. Acts as the index target for the
follow-up commits on this branch.
2026-05-12 23:46:40 +08:00

11 KiB
Raw Blame History

项目整体审阅与下一阶段路线图

日期2026-05-12 分支起点improve/audit-and-foundations(基于 h200-cu130 性质:跨分支整合 + 路线图,供合作者判断每个 commit 是否值得 merge 对象:项目下一个 SWE / research agent + 论文 reviewer 预读

本文把 main / kvc-debug-journey-v1-to-v4 / feat/d-to-p-sync / h200-cu130 / kvc-real-ali-iter-v1 五个分支的进度、已成立的贡献、薄弱点、走到 SOSP/OSDI + 工业级的路线图集中到一处,方便快速对齐。


0. TL;DR

  1. 已经成立v1 → v2 算法reset-on-success、字典序 Route、worker-mode Admit RPC有形式化定义 + 两条 theorem + SWE-Bench 50 sess ts=1 上 6/8 指标击败 4DP CA 的实测。
  2. 核心薄弱点(a) session-level eviction 与 KVC 设计意图冲突;(b) D→P 增量 KV 同步不存在TTFT p99 长尾来自此;(c) mooncake "instance not alive" 级联是控制层根本可用性问题;(d) 评测仍缺多 baseline 多 trace 强统计。
  3. 不需要 GPU 也能推进的事:算法层 unit test、形式化设计文档block-level evict、D→P sync 接口契约)、评测协议、分层分析工具、文档体系收口。本路线图的 Milestone 1 大部分都属于此类。
  4. 进 OSDI/SOSP 必须做的:执行 §S1block-level evict+ §S2D→P sync POC+ §M2/M3/M4多 baseline / 全 Ali / paired 协议)。预计 34 个月单/双人。

1. 五个分支的状态总览

分支 角色 当前状态 最关键产出
main "已发布" 基线 落后 origin 18 commit2P4D + worker-admission + seed-min2 报出 vs default PD 的 9% mean / 19% p90 改善 KVCACHE_CENTRIC_PROGRESS_ZH.md 的两档策略latency-best vs stable
kvc-debug-journey-v1-to-v4 主工作分支 v1→v5 完整算法演化;KVC_ROUTER_ALGORITHM.md 三段算法 + 两条 theorem SWE-Bench 50 sess ts=1v2 6/8 指标击败 4DP CATTFT p99 仍输 3×1.28s vs 0.43s),诊断为 8.3% reseed 慢路径
feat/d-to-p-sync 占位分支 代码空,仅 RESEED_SLOW_PATH_AND_D_TO_P_GAP_ZH.md 已排除"capacity-backup 是 D→P sync"的误解;列出 4 项工程子任务
h200-cu130 真硬件 + RDMA 验证 4×H200 + mlx5_60 NDR 400 Gb/s 上跑 E1/E2/E3 E2 80% failuremooncake 死链级联);E3 16min 触发 SGLang patch invariant crash;最新 KVC_EVICTION_GRANULARITY_DESIGN_ZH.md 把 root cause 上升到"session-level 是错的 eviction granularity"
kvc-real-ali-iter-v1 真 Ali trace 验证 8×H20179-req KVC-fit slice + 600-req/15min cold-window KVC vs DPKVC-fit p50 46% real 15min p90 +19s 53 errors vs DP 1KVC 默认 mem-fraction OOM必须降到 0.82

2. 已经"硬"成立的贡献

按"reviewer 能不能反驳"为标尺:

  1. Reset-on-success 修复 v1 thrashingv1 永久 blacklist → migration 死循环 failure mode 有实测 + Algorithm 3 形式化 + Theorem 1 的不饿死证明(KVC_ROUTER_ALGORITHM.md §3.4 / §4.1)。
  2. 三段算法分工清晰Algorithm 1字典序 Route+ Algorithm 2D 自治 Admit RPC+ Algorithm 3Dispatch + reset-on-success。v5 把 admission 从 router 估算改成 D RPCOption D是把 capacity ground truth 与 routing score 解耦的正确分层。
  3. Direct-to-D 快路径的确定性命中Theorem 2只要 residency ⊇ prefix ∧ append ≤ τ_append ∧ cap_ok 三条件同时成立必走快路径SWE-Bench 91.6% 命中、TTFT p50 = 0.43s 是结构性结果。
  4. 每一个 negative result 都有 forensic 级解释mooncake death、cold-D、reseed 慢路径、session-level evict 都有代码定位 + 时间线 + 反例。这条对 paper 是真正加分项。

3. 让 reviewer 一击致命的薄弱点

3.1 评测方法层

  • M1 N 不足SWE-Bench v2 baseline N=3 确认 categoricalv2 自身 N 不足;缺 bootstrap CI。
  • M2 比较口径不对等E2 80% 失败时用 "successful only" 算 latency 与 E1 全集比paper 必须 paired-on-same-trial。
  • M3 trace 偏 KVC-friendlyKVC-fit slice 按 small-append + high overlap 筛过full Aliturn2+ ratio 26%、single-turn 极多)的 dilution 后结果没跑过。
  • M4 baseline 不够强:缺 vLLM + prefix-cache、DistServe、SplitWise、Mooncake-Master 任何一个。
  • M5 trace 单一性:缺 ShareGPT/Mooncake trace、缺 long-context tool-use agent benchmark、缺合成 adversarial trace。
  • M6 硬件覆盖:只 single-node ≤ 8 GPU没有跨节点、没有 ≥ 32 GPU 集群实测。

3.2 系统设计层

  • S1 Session-level eviction 与 KVC 设计意图冲突90 次 evict、平均一次 free 67K tokens、25/50 session 必须 5090K 重 prefill。KVC_EVICTION_GRANULARITY_DESIGN_ZH.md 已识别但未实现修复。
  • S2 D→P 增量同步不存在TTFT p99 长尾 50% 来自 P 重 prefill。capacity-backup 是 seed-time 静态快照,不是 D→P sync。修复需改 SGLang radix 的单生产者假设。
  • S3 Mooncake 级联 deathadmission no-space → 持续重试 seed → 心跳掉线 → SGLang 整批 abortE2 1054/1285 失败)。控制层根本可用性 bug。
  • S4 Admission RPC 同步阻塞:缺 backoff / hedging / staleness budget。D scheduler GIL 抖动即把 router 卡死。
  • S5 Cold-D / overlap-pinningboilerplate 24-token block hash 让所有 session 与 D0/D1 重叠 → D2/D3 0 binding。load-floor bonus 是补丁,不是 first-principles 修复。
  • S6 SGLang 本地 patch 已 785 行 / 10 文件,含 schedule_batch.py:1646 这种 hot-path 不变量改动E3 crash 就是 vendored patch 引入的 latent landmine。
  • S7 失败恢复 / 幂等性streaming session 在 chunked-prefill retry 下幂等性靠 SessionSlot.restore_to_req;缺 worker crash / mooncake 重连 / partial KV 损坏的恢复 protocol。
  • S8 没有 multi-tenant / SLO-aware scheduling:算法目标隐式 w_ttft=w_lat=1。生产里 interactive / batch / background 必须分级。
  • S9 Topology fixed at bootP/D 比例是启动参数。生产负载需要 elastic。
  • S10 Backpressure pause hint 信号未闭环:触发 20 次但因 no-BP 无人响应control-plane 没接通。

3.3 工程基础设施层

  • 可观测性metrics 是 jsonl + 离线 recompute_summary.py;生产需要 Prometheus + Grafana + OpenTelemetry trace。
  • 形式化测试:算法层与状态层缺 unit testSessionSlot.restore_to_req 幂等性是作者自己 flag 的 invariant。
  • 混沌注入mooncake death 这种 control-plane failure 必须有 fault injection harness。
  • 代码体量replay.py 2460 行,集 orchestration / policy hook / control plane / metrics 于一身——prototype OKpaper-quality artifact 偏弱。

4. 路线图

分三个 milestone。每个 milestone 可独立交付paper 章节或工程 release

Milestone 1 — Defensible SOSP/OSDI submission34 个月,单 / 双人)

目标:把现有算法 + 失败诊断收口成能扛 PC 第一轮的稿子。

  1. 执行 §S1block-level eviction refactor — 见 docs/BLOCK_LEVEL_EVICTION_DESIGN_ZH.md
    • Streaming-session decode 输出在每个 turn finish 时通过 cache_finished_req 增量提交进 radix tree。
    • SessionSlot 退化为纯 metadata仅持 last_node + lock_ref
    • release_session 改为 dec_lock_ref + 删 slotevict 完全交给 SGLang radix LRU。
    • 预期evict 粒度从 67K tokens/次降到 24 tokens/次reseed 频率降一个数量级。
  2. 执行 §S2D→P 增量同步 POC — 见 docs/D_TO_P_SYNC_CONTRACT_ZH.md
    • microbench 证明D append 完成后异步推 KV block 回 P 端 radix → 下次 reseed 跳过 re-prefill。
  3. 修 §S3mooncake death 级联)admission RPC backoff + jitterper-D pending-seed budgetmooncake heartbeat 与 admission 解耦。
  4. 修 §S5 的 first-principles 解法:把 overlap 重定义为 "session 在 D 上独占 prefix 的 hash 数"(去掉 boilerplate 共享 hash 贡献),让 score 自然分散。
  5. 重做评测:见 docs/EVALUATION_PROTOCOL_ZH.md。N≥3 + bootstrap CI + 多 baseline + 全 Ali + 分层报告。
  6. 形式化扩充:加 Theorem 3block-level evict 下重 prefill cost 上界)+ Theorem 4D→P sync 的 staleness budget β 与 reseed cost 关系)。
  7. Artifact:一键脚本 + Dockerfile + 4×A100 一小时复现核心 table/figure。

Milestone 2 — Production-quality serving substrate再 36 个月23 人)

  1. 控制平面分层:把 replay.py 拆成 router/ / control/ / obs/ / orch/
  2. Elastic topologyautoscaling controller输入 (P queue, D transfer queue, D KV usage)。
  3. Multi-tenant + SLO classesinteractive / batch / background 三档独立 admission budget。
  4. Failure injection harnessmooncake link flap / D OOM kill / router GC pause / partial KV corruption每个 case 有恢复 SLA。
  5. Persistent KV tierCPU DRAM + NVMe + RDMA-attached poolevict 改为 demote。
  6. Cross-node + heterogeneousH100 + H200 + L40S 混合topology-aware routing。
  7. Observabilityper-request OpenTelemetry + Prometheus per-D + Grafana 主面板。

Milestone 3 — 真正能进 OSDI'27 的科研增量612 个月)

  1. Learning-based admission / migrationmulti-armed bandit / RL 控制 τ_reject 与 K用 trace 训 session-aliveness predictor。
  2. 跨 router residency consensus:轻量 gossip 共享 Σ.resident[d]
  3. 可证明 competitive ratio:在 oracle KV-residency 模型下证明 KVC expected TTFT 与 offline optimal 比值有界。
  4. 分布式 prefix tree:逻辑 prefix 映射到多 D 物理副本,支持 multi-tenant prefix 共享system prompt / tool schema
  5. Energy-aware variantGPU SM 利用率 + PCIe/RDMA 能耗进目标函数。
  6. End-to-end agent serving framing:从 request-level latency 上升到 agent task completion timecoding agent 一个 task 30+ turn

5. 不需要 GPU 也能推进的工作清单

按 ROI 排:

  • 本路线图(AUDIT_AND_ROADMAP_ZH.md)。
  • 合作者入口(docs/INDEX_ZH.md)。
  • Block-level eviction 具体设计(docs/BLOCK_LEVEL_EVICTION_DESIGN_ZH.md)。
  • D→P sync 接口契约(docs/D_TO_P_SYNC_CONTRACT_ZH.md)。
  • 评测协议(docs/EVALUATION_PROTOCOL_ZH.md)。
  • KvAwarePolicy 纯函数 score 抽取 + unit testAlgorithm 1
  • 不饿死性质测试Theorem 1
  • 分层分析脚本(按 turn-index / append-size / overlap 三维分桶)。
  • Paired-comparison 协议 helper。
  • Mooncake death 的可重现 mock harness无 GPU 也能跑)。
  • SGLang patch surface 的归类清单(每个 patch 标"必须" / "实验性" / "可下线")。
  • Failure-mode taxonomy 文档cold-D、overlap-pin、mooncake death、reseed storm、evict storm

6. 单句结论

这个项目已经具备了 SOSP/OSDI workshop / poster 的素材;要进 main track需要把 §S1block-level evict和 §S2D→P sync做实、把 §M3full Ali和 §M4两个强 baseline补齐、把 §S3mooncake 级联 death的 control-plane fix 写进可重复 artifact。如果只能做一件事先做 block-level eviction refactor —— 它同时解决"reseed 太频繁"和"P 端 radix 多生产者扩展的前置条件"。