gahow/obsidian

Files

Gahow Wang a57afa86b4 Initial commit: obsidian to gitea

2026-05-07 15:04:41 +08:00

2.2 KiB

Raw Permalink Blame History

trace 部分

现存的问题

traceA 和 traceB 来自不同的 log，格式不同，处理时需要的脚本不同
traceA 和 traceB 之前测试时使用的时长分别为 1h/2h，时长不统一 & 不够长
trace 相关的处理脚本、绘制脚本不够高效
- 需要 load 所有 trace 进 RAM，1h/4h 还能处理，24h 下显然不可行
- 即使是 simulator，4h 数据也需要差不多 1h 运行，24h 下效率太低

TBD

统一 preprocess 一遍 24h 的 traceA 和 traceB，得到一份统一好用的 trace
优化现有脚本，把 load all 改为 streaming，支持 24h 的 trace 处理
刷一遍现有 trace 分析的数据
- 改为 24h 后，一天内应该会出现特征的波动，为了说明一段较长的连续时间内是稳定的（小时级别），可能需要同时展示 24h 和 2h 的数据（高峰/低谷：9-11 / 22-24）
- 预期：特征与之前分析的结论一致。24h 下一天的波动可能能带来一些新发现
suggestion from 大爷：一个表，现有 paper 的假设/观察和我们在实际工业界 trace 观察的关系：结论相同？相悖？

From vLLM v1 meetup

移除 prefill 和 decode 的概念 !
不做 PD 分离，对 scheduler 自然提出了很高的要求（需要 scheduler 尽可能避免 compute-bound/memory-bound）。vLLM 团队也有计划做 workload-specific scheduler。不过他们这个是请求到来的 workload-aware，不是我们之前的 KVCache 的 workload-aware。我们 refine 工作时，可能也可以思考 workload-aware 对 scheduler 能提供什么帮助。【需要先熟悉 vLLM v1 最新的 scheduler】 !
针对不同场景 Reasoning/Coding/... 做优化，我们的 workload-aware 能否考虑到这类信息，对系统设计/优化提供有价值的信息？ !

Response

workload 对 PD 分离 global scheduler 有什么启发？
workload 对 MoE 的影响？不同 workload 下，硬件配比是否有变化？
Deepseek 320 experts， 320 卡每张卡一个 expert，如果在 8 卡下跑，expert 如何分布？激活特性？