Files

kzlin 1d51704dad docs(kvc): agentic-fit analysis, refactor plan, validation report

Three new docs covering the structural-fit investigation:

- AGENTIC_FIT_ANALYSIS_ZH.md: §1-§7 of structural design issues that
  surface KVC vs vanilla DP gap on real agentic workloads (SWE 50sess).
  Quantifies session pinning, LRU shortfall, P-side imbalance,
  time-scale distortion, etc., with code citations and N=3 rerun data.

- REFACTOR_PLAN_ZH.md: KISS-edition refactor plan. After verifying the
  original "estimate inflation" and "resident_blocks aging" claims were
  not real bugs, scope shrinks to one code change (backpressure) plus a
  4-run smoke sweep within an 8h budget.

- STRUCTURAL_VALIDATION_REPORT_ZH.md: validates §1-§7 claims using
  existing v5 baseline rerun data + 8DP CA baseline. Each claim labeled
  fully-supported / indirect / retracted with the data source. Notes
  that backpressure E2E validation is pending GPU smoke run.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-06 21:30:11 +08:00

20 KiB

Raw Blame History

Agentic 场景下的结构性设计缺陷分析

日期：2026-05-06 对照数据：outputs/qwen3-30b-tp1-v5-optD-baseline-rerun/exp2_2p6d_run1_*（KVC kv-aware Option D，2P6D，4449 reqs / 52 sessions）+ outputs/qwen3-30b-tp1-exps/exp1_8way_dp_cache_aware_summary.json（同 trace 8-way DP cache-aware baseline）。模型：Qwen3-30B-A3B（TP1），单机 8×H100 80GB。 研究问题：把 SWE trace 视为"真实 agentic"的代表，KVC 机制相对 vanilla DP 系统性输在哪里——除了"D 容量 4.6× 过载"之外的结构性原因。

本文是对 docs/KVC_DEBUG_JOURNEY_V1_TO_V5.md 与 docs/V5_PROFILE_INVESTIGATION_ZH.md 的补充：版本演进与瓶颈定位之外，从设计层看哪些假设和真实 agentic workload 不匹配。

TL;DR

按重要性排序的结构性缺陷：

#	缺陷	数据	修复方向	工程量
1	KvAwarePolicy 不感知 D 容量；session 永久 pin 到首次落点 D	session 平均访问的不同 D 数 = 1.00；direct-to-D 命中率呈极端双峰（15 session 0-20%、14 session 80-100%）	score 函数加 capacity-aware 项；允许跨 D session 迁移	中
2	D 端 LRU 只能 evict idle session，hot session 永远踢不掉	D 跑全程仅 9-43 次 trim 事件 vs 80-150 次 transfer 错误；token_usage 顶到 1.00	加 score-based eviction（按访问频率/最近性多层）	中
3	没有 D→Router→Replay 的 backpressure 通道	concurrency 一路 32 不降；D 失败时 replay 无感	admission 响应加 `recommended_pause_ms`；replay 端按它降并发	小
4	Admission HTTP round-trip 与 scheduler 主循环耦合	v5+profile 仅加 1Hz polling 就让 errors 从 9 涨到 415	拆成 lock-free `/probe` + 进 scheduler 队列的 `/commit_evict`	中
5	P-side round-robin 不感知 D 健康	prefill-0 出 367 KVTransferError，prefill-1 仅 4——但请求量近乎对半	router 选 P 时考虑目标 D 健康度	中
6	Replay 端 session footprint 估算膨胀 30×	`_estimate_session_resident_tokens = input + output`，把 turn-50 的 80K 上下文当成"需要全新 80K 空间"	改成"增量 token"估算	小
7	time-scale=10 把测试条件人为推到失真区间	inter-turn gap p50 从 2.5s 压到 0.25s——KVC 想利用的"自然 idle 窗口"被消除	跑一组 time-scale=1 baseline 验证	小（仅配置）

最重要的对照事实：同 trace、同硬件、同模型下 8-way DP cache-aware（无 PD 拆分、无 KVC、无 session 抽象）：

指标	8-way DP CA	v5 KVC 2P6D
Errors	0	372 (8.4%)
Latency mean	1.43s	3.50s
Latency P50	0.65s	1.11s
Latency P99	8.37s	20.37s
TTFT mean	0.12s	2.13s
TTFT P90	0.26s	6.47s
Per-worker 请求量分布	508–619（±10%）	561–858（±26%）

naive DP 在每一项都赢，包括 latency mean 的 145% 优势。这定义了 KVC 在该 workload 下"必须超过"的基线。

1. Session 永久 pin 到 D + 容量盲选（最核心问题）

1.1 现象

每个 session 在整次运行中只访问 1.00 个不同 D worker（见上文数据）。结合 direct-to-D 命中率分布：

direct-to-D 命中率分桶（n=52 sessions）：
  0-20%:  15 sessions ← 几乎每 turn 都失败回退到 P→D 全量传输
  20-40%:  7
  40-60%: 11
  60-80%:  5
  80-100%: 14 sessions ← 几乎每 turn 都走 direct-to-D 快路径

几乎没有中间态——这是典型的不公平资源分配信号。

被饿死与被照顾的 session 在工作量上差异明显：

饿死 session 平均 peak input：56,011 token
顺利 session 平均 peak input：31,344 token（1.8× 差距）

大 session 倾向被饿死——因为它们在容量已紧张的 D 上更容易触发 admission 拒。

1.2 根因（代码级）

policies.py:166-172 KvAwarePolicy.select：

score = (
    overlap + sticky * self.sticky_bonus,    # 主项: 历史 KV overlap
    sticky,                                   # 二级: 是否 last_decode_worker
    inflight_penalty,                         # 三级: 当前 inflight 数（很小）
    assignment_penalty,                       # 四级: 累计被分配数（更小）
)

评分中完全无 D 当前容量项。Session X 第一次落到 D-2 时积累 hash_id 在 D-2 上；之后无论 D-2 多满，X 的 turn N+1 都会被打分到 D-2（因为 overlap 主导）。

更糟的是 RoutingState.decode_resident_blocks（policies.py:46）从不缩减——即使 D 早 evict 了某些块，replay 仍认为它们在那。运行中期所有 D 的 overlap 集合都接近"trace 全部 hash_id"，policy 退化为纯 sticky。

1.3 后果——具体到 session 的体验

饿死 session（如 session 50400，105 turns，0 次 direct-to-D）每 turn 流程：

policy 选 D（永远是同一个）
admission 拒（D 容量已被占住）
走 fallback-session-cap → P 全量 prefill 50K-100K token
mooncake 推 KV → D 仍无空间 → 32s timeout 或 KVTransferError
用户每 turn 体验 5-10s 延迟，反复出错

顺利 session（如 session 3840，118 turns，97% direct-to-D）每 turn 流程：

policy 选 D（永远是该 session 的初始 D）
admission 通过（这个 session 一直占着这个 D 的 slot）
direct-to-D：D 上 append-prefill 几百 token，零 P 介入、零 mooncake transfer
TTFT 0.043s、E2E 0.495s

这不是"平均慢一点"，是结构性不公平——SLO 视角下 P99 是被饿死那 15 session 的尾巴拉出来的。

1.4 为什么 naive DP 反而赢

8-way DP cache-aware 用纯 hash-based 路由，没有 session 抽象，没有 PD 拆分：

每个请求按 prefix hash 路由到一个 worker → 同 session 的 turn 在 worker 上自然有 prefix 命中
容量过载时 SGLang 自己的 radix cache + 调度器统一管 KV 池
不存在 admission/fallback/reseed 路径
不存在 mooncake transfer
per-worker 负载误差 ±10%（vs KVC ±26%），自动接近均衡

KVC 引入的 session affinity / KV 复用 / admission 三件套，在容量紧张时反而加剧了不均衡，没有任何一项能挽回 vs DP 的差距。

1.5 修复方向

KvAwarePolicy.select 里加：

# 当前 D 容量利用率（worker-mode admission 已经能查到）
capacity_penalty = -worker_capacity_used_ratio[worker.worker_id]

# 当多个 D 都有 overlap 时，按容量挑最空的；
# 当某 D 容量 > 阈值时，禁止该 D 进入候选
if worker_capacity_used_ratio[worker.worker_id] > HARD_CAP:
    continue

score = (
    overlap_capped,                # overlap 但限幅，避免单个 D 永远赢
    capacity_penalty,              # ← 新增
    sticky,
    inflight_penalty,
)

更激进的修法：当一个 session 被某 D 反复拒 N 次后，主动 release 它在该 D 上的 session 状态，允许下次 turn 走另一个 D（代价是丢失已积累的 KV，但目前 fallback 路径本来也丢了）。

2. D 端 LRU eviction 跟不上压力

2.1 数据

每个 D 全程：

Worker	Trim 事件（主动 LRU）	KVTransferError + OOM	峰值 token_usage
decode-0	9	0	0.99
decode-1	43	12 (4 err + 8 oom)	0.99
decode-2	16	459 (153 err + 306 oom)	0.97
decode-3	37	87 (29 err + 58 oom)	0.99
decode-4	28	270 (90 err + 180 oom)	1.00
decode-5	30	279 (93 err + 186 oom)	1.00

LRU 触发频率比错误次数低 5-15 倍。 D-4 / D-5 直接顶到 token_usage=1.00。

2.2 根因

scheduler.py:2040 evict_idle_streaming_sessions_lru 的 idle 判定：

# 只能 evict "所有 req 都 finished + streaming 模式" 的 session

但 SWE 高并发下每个 session 几乎一直有 inflight req（time-scale=10 又压缩了 inter-turn gap）。hot session 永远不 idle，LRU 永远找不到东西可踢。结果 D 一路开到 100% → 下一笔 transfer 来直接 OOM/timeout。

2.3 修复方向

引入分层 eviction：

Idle session 优先（当前）
冷 session 次优（最近 N 秒无访问，即使有 inflight，也可以 retract 那个 inflight 让位）
hot session 强制 retract（在 hard cap 触发时）

vanilla SGLang 已有 disagg_decode_prealloc_queue.retracted_queue 机制（看 admit_direct_append 引用），但没有人主动触发 retract——目前只有内部异常时才会进 retracted_queue。需要把 retract 提升为正常 admission 路径的一部分。

3. 没有 D→Replay 的 backpressure 通道

3.1 名词解释

Backpressure（反压） = 流式系统下游过载时把信号反向传给上游让它降速。例：TCP 滑动窗口、Kafka consumer lag、gRPC HTTP/2 flow control。

3.2 当前状态

D 端 transfer queue 堆 → 32s 后 timeout → 抛 KVTransferError
error 抛回 P → P 抛给 router → router 抛给 replay → replay 走 fallback 路径
整个链路上没有"D 过载，请慢点发"的信号——concurrency 一直保持上限

后果：D 一旦开始失败，会持续失败（因为 replay 没降速），直到 D 自己消化完积压。

3.3 修复方向

admit_direct_append 响应里加：

{
  "can_admit": ...,
  "recommended_pause_ms": int,    # ← 新增：下次发同类请求前建议等多久
  "queue_depth": int,             # ← 新增：D transfer queue 当前深度
  ...
}

replay 端在 admission 拒被拒时按 recommended_pause_ms 降并发或退避。这是最便宜的一条改动——不改协议、不改 SGLang 内部，只改两端代码。

4. Admission RPC 与 scheduler 耦合——结构 vs 工程的精确边界

4.1 现象

docs/V5_PROFILE_INVESTIGATION_ZH.md 报告：仅加 1Hz /server_info polling 就让 EXP2 errors 从 9 涨到 415。/server_info 在 scheduler 主循环里遍历 session slots 算 is_idle，1 Hz × 8 worker 就足以扰动调度。

但实际负载下 admission RPC 频率远高于 1Hz：每个 turn 1 + reseed + direct-to-D 都调一次。concurrency=32 + 4449 reqs / ~2700s ≈ 每秒 16+ 次 admission RPC。

4.2 这是结构问题还是工程问题——精确拆解

admit_direct_append（scheduler.py:3581）做两件事：

# (a) 读池子状态——轻
available_tokens = self.token_to_kv_pool_allocator.available_size()

# (b) 触发 LRU 扫描——重，且必须修改池子状态
trim_result = self.maybe_trim_decode_session_cache(...)

部分	性质	是否能靠工程化解决
(a) 读池子状态	几个原子读	完全可工程化——做成 lock-free shared-memory snapshot 即可
(b) LRU eviction	修改 GPU 池子，必须独占	结构性的——Python GIL + 共享 GPU 池子无法并发修改

关键观察：实际负载里 (b) 是少数路径——大部分 admission 只需要"看一下够不够"，不需要立即 evict。

4.3 工程化修复方案

把 admission API 拆成两个端点：

POST /session_cache/probe          ← 90% 流量
  - 只读 lock-free snapshot
  - 返回 (can_admit_estimate, available_tokens, queue_depth)
  - 不进 scheduler 队列

POST /session_cache/commit_evict   ← 10% 流量
  - probe 不够时才调
  - 进 scheduler 队列，做实际 LRU
  - 保留当前 admit_direct_append 语义

snapshot 由 scheduler 在每个 step 末尾写到一段 mmap 共享内存（atomic publish）；replay 端 mmap 读，零 syscall 零序列化。一秒内能撑数千次 probe。

4.4 关于"协程/多线程/多进程/换语言"

工具	对本问题的实际效果
asyncio 协程	SGLang 已用，对 scheduler 主循环本身无帮助
Python 多线程	GIL 拦着，且 GPU 池子状态只能 scheduler 进程改
多进程	scheduler 已是独立进程；问题是它自己的 step 循环串行了 admission 与 decode
orjson / uvloop	网络/JSON 加速 5-10×，但 LRU 遍历不在那条热路径
Rust/C++ 重写 scheduler	把 LRU 遍历提速 5-10×，但结构性共享问题仍在

正确的工程化解法是重设计 API（拆 probe / commit），不是单纯换更快的库或语言。

5. P-side 路由不感知 D 健康

5.1 数据

prefill-0:  367 KVTransferError, 361 "Decode instance could be dead"
prefill-1:    4 KVTransferError, 0  "Decode instance could be dead"

请求量对比:
  prefill-0: 2225 requests
  prefill-1: 2224 requests   ← 几乎对半

两 P 请求量完全均衡，错误率差 92×。日志里 prefill-0 的错误反复指向某个特定 D（10.45.80.47:XXXXX）——它跟某个 hot D 形成了"死亡链路"。

5.2 根因

pd_router.py:43-49 的 P 选择是裸 round-robin：

prefill_url, bootstrap_port = self.config.prefill_urls[
    self.prefill_cursor % len(self.config.prefill_urls)
]

不知道 D 是否健康，不会避开"正在和 D-X 死磕"的 P。

5.3 修复方向

router 选 P 时考虑 (P 当前 inflight transfer 数, 目标 D 健康度) 联合得分。健康度可以用 §3 提的 queue_depth 字段。

6. Replay 端 session footprint 估算膨胀 30×

6.1 代码

replay.py:898-899：

def _estimate_session_resident_tokens(request: TraceRequest) -> int:
    return request.input_length + request.output_length

被用于 _decode_session_soft_cap（replay.py:1051）和 _should_admit_new_decode_session。

6.2 问题

对一个已经在 D 上有 80K KV 的 turn 50：

真实增量需求：input 新增几千 token + output 几百 token = ~3K
估算返回值：80K + 1K = 81K（膨胀 ~27×）

后果：router-mode admission 系统性误判——本来能 admit 的 session 被 replay 自己拒掉。v5 worker-mode 让 D 自己看真实容量部分修了这个，但 KvAwarePolicy 选 D 时仍用这个膨胀估算——选 D 仍然是错的。

6.3 修复

def _estimate_session_resident_tokens(request: TraceRequest) -> int:
    if request.turn_id == 1:
        return request.input_length + request.output_length
    # turn 2+: only the increment matters for additional reservation
    return max(0, request.input_length - request.cached_tokens) + request.output_length

7. time-scale=10 测量失真

7.1 它是什么

replay.py 把原始 trace 每个请求的 timestamp 字段做 t / time_scale 缩放后再按这个时间发。

原始 trace 跨度 ~6000s（≈100 分钟）
time-scale=10 → 实际 replay 跨度 ~600s（≈10 分钟）

7.2 为什么这么设计

纯粹为了节省测试时间——单次 1× 跑 100 分钟，sweep 5 版 × 3 重复 = 25h GPU 时间；10× 只要 2.5h。

7.3 它扭曲了什么

维度	原始 trace	replay (time-scale=10)
inter-turn gap p10	1.6s	0.16s
inter-turn gap p50	2.5s	0.25s
inter-turn gap p90	7.8s	0.78s
inter-turn gap max	261s	26s

真实 agentic 用户/agent 在每个 turn 之间停 2-8 秒（思考、打字、tool call）。这些间隙正好是 KVC 想利用的"自然 idle 窗口"——session 短暂 idle 时 LRU 可以 evict、其他 session 可以 admit。

time-scale=10 把这些窗口压到 0.2-0.8s，人为消除了 KVC 的设计前提条件。

7.4 严重的实验有效性威胁

所有 v3-v6 数据基于 time-scale=10。这意味着前面所有"KVC 在 SWE 上输给 baseline"的结论都带着这个失真。真实部署里 inter-turn gap 是 2.5s 的话，KVC 可能根本不会撞到当前看到的容量瓶颈——D 有时间在 turn 之间释放/重排。

应该单独跑一组 time-scale=1 的 baseline 对比，才能判断 KVC 输给 DP 是因为机制本身不行，还是因为 benchmark 把它推到了不该工作的区间。这是这个项目目前最重要但还没做的验证。

8. 应用层抽象不需要在引擎层引入（撤回）

之前草稿里提过"框架不支持 speculative 多分支、嵌套 sub-agent、tool call 中断"——这是过度抽象。应用层模式都可以由 timestamp + 独立 session_id 隐式表达：

应用层模式	表现在 trace 里	推理引擎需要做什么
Tool call 异步返回	turn N 与 N+1 之间 timestamp gap 很大	啥都不用，按时间发请求即可
嵌套 sub-agent	父 session timestamp 突然停顿；sub-agent 是独立 session_id	把它们当成两个独立 session 即可（KV 也无需共享）
Speculative N 分支	N 个独立 session_id 同时发	用 radix prefix cache 自然命中前缀；不需要任何额外抽象

这条不构成结构性缺陷。 已从结论中移除。

9. 行动项（按 ROI 排序）

优先级 P0（修了显著改善饿死/不公平）

[§1] KvAwarePolicy 加 capacity-aware penalty + 允许 session 跨 D 迁移 — 工程量中、收益最大
[§2] D 端引入分层 eviction（冷 session、hot retract） — 工程量中、收益大
[§7] 跑一组 time-scale=1 baseline — 工程量小（仅配置），但不做这条所有结论都不可信

优先级 P1（修了把工程稳定性补齐）

[§3] D→Replay backpressure 通道（admission 响应加 pause hint） — 工程量小
[§4] 拆 admission 为 probe + commit_evict — 工程量中
[§6] 修 _estimate_session_resident_tokens 用增量 — 工程量小

优先级 P2（等 P0 数据后再决定）

[§5] P-side 选 P 时考虑 D 健康 — 工程量中

10. 局限与未验证假设

N=1：所有数据来自单次 run（v6 P0 已证 EXP2 errors 在 9-912 间漂移，single-run variance 巨大）。本文所有数字都应理解为"代表性观察"而非"统计显著结论"。
time-scale=10 失真（§7）：所有"KVC 输给 DP"的程度可能是被 benchmark 放大的。这是最大的不确定性。
8DP 对比的硬件优势：DP 是 8 个 worker 全部跑 prefill+decode；KVC 是 2P+6D，只有 6 个能解码。理论上 8 worker 对 6 worker 自带 1.33× 解码并发优势。本文未折算这部分——但 8DP 优势远大于 1.33×（latency mean 145% 优势），所以核心结论（KVC 在该 workload 下系统性输）不受此影响。
mooncake TCP loopback：所有 transfer 错误是单机 TCP 模拟下的产物。生产环境 RDMA 下错误率分布可能完全不同。
KvAwarePolicy 的 stale decode_resident_blocks（§1.2 末尾）现象有数据观察支撑（运行中期 overlap 失去判别力），但没有系统性测过"清掉 stale 状态会怎样"。
P-side 错误集中在 prefill-0（§5.1）的因果链是推测——可能也是"prefill-0 早启动 + race"的偶然结果。N>1 数据未验证。

附录 A：数据产物索引

outputs/qwen3-30b-tp1-v5-optD-baseline-rerun/
├── exp2_2p6d_run1_metrics.jsonl    ← 本文主数据源
├── exp2_2p6d_run1_summary.json
├── exp2_2p6d_run2_*  (errors=912, single-run variance 证据)
├── exp2_2p6d_run3_*  (errors=396)
└── kvcache-centric-*-20260429T142429Z/logs/
    ├── decode-{0..5}.log           ← §2.1 LRU vs error 计数
    └── prefill-{0,1}.log           ← §5.1 P 错误分布

outputs/qwen3-30b-tp1-exps/
├── exp1_8way_dp_cache_aware_summary.json   ← 对照 baseline
└── RESULTS_SUMMARY.md

附录 B：相关文档

docs/PROJECT_OVERVIEW.md — 项目目标与已实现功能
docs/KVC_DEBUG_JOURNEY_V1_TO_V5.md — v1→v5 版本演进
docs/V5_PROFILE_INVESTIGATION_ZH.md — v5+profile 调查（已 critic 修订）
docs/SWEBENCH_EXPERIMENT_RESULTS.md — Qwen3.5-35B-A3B SWE 实验

20 KiB Raw Blame History Unescape Escape