Gate GMU climb on measured improvement

This commit is contained in:
2026-06-29 02:00:41 +08:00
parent ee101a7c24
commit 6b25d56c1f
3 changed files with 39 additions and 14 deletions

View File

@@ -104,9 +104,11 @@ harness 的 family、signature、scoring 和 validator 约束。
- 当 scheduler dimension 还没有被 materialized config 覆盖时,加入
`uncovered_scheduler_dimension_bonus`,让该 family 在 topology settled 后优先于
`gpu-memory-utilization` 这类 resource micro-tuning。
- 当该 family 已生成有效候选时,旧的 standalone `raise_mbt`
`enable_chunked_prefill``raise_mbt_and_max_num_seqs` 只作为 fallback不作为同级
prefill runtime 候选抢排序。
- 当该 family 已生成有效候选时,旧的 standalone `raise_mbt`
`enable_chunked_prefill``raise_mbt_and_max_num_seqs` 只作为 fallback不作为同级
prefill runtime 候选抢排序。
- `gpu-memory-utilization` 仍保留小步 hill-climb但继续爬升必须由同拓扑
request_rate_per_gpu 改善支撑;仅仅 launch 成功或打平 incumbent 不再算成功。
## 为什么不是 rule-based hack
@@ -185,6 +187,8 @@ harness 的 family、signature、scoring 和 validator 约束。
`lower_admission_pressure_with_chunked_prefill`
- 抽出 `_higher_tp_frontier_patch`,让 runtime gate 与
`_topology_frontier_status` 使用同一套 higher-TP signature。
- GMU hill-climb 改为 measurement-gated同拓扑 GMU trial 没有提升
request_rate_per_gpu 时,阻断继续向更高 GMU 爬升,避免连续浪费 trials。
### 2026-06-29 远端 review feedback
@@ -290,5 +294,8 @@ trial-0003 已完成best request_rate_per_gpu 约为 2.025,和 baseline 持
falsification evidencecoverage priority 改变了探索顺序,具体 `chunked + MBT ~= p95`
hypothesis 被验证后没有改进。系统随后进入 candidate-set-0004开始测试
`gpu-memory-utilization=0.9`。trial-0004 同样完成在约 2.025,没有超过 baseline
当前旧 run 已进入 trial-0005,继续测试 `gpu-memory-utilization=0.92`。后续需要观察
GMU climb 是否会停下并转向 admission pressure、topology/DP 或其他 family。
trial-0005 `gpu-memory-utilization=0.92` 仍然打平 baseline旧 run 随后继续排
`gpu-memory-utilization=0.94`。这暴露出旧实现的 GMU hill-climb 问题:它把 launch
成功当成 climb 成功,而没有要求 request_rate_per_gpu 改善。最新本地实现已经修正为
measurement-gated GMU climb下一轮应使用新提交重新跑验证 GMU tie 后是否转向
admission pressure、topology/DP 或其他 family。