Files
obsidian/projects/kvcachecache/Refine roadmap.md

34 lines
2.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# trace 部分
## 现存的问题
1. traceA 和 traceB 来自不同的 log格式不同处理时需要的脚本不同
2. traceA 和 traceB 之前测试时使用的时长分别为 1h/2h时长不统一 & 不够长
3. trace 相关的处理脚本、绘制脚本不够高效
- 需要 load 所有 trace 进 RAM1h/4h 还能处理24h 下显然不可行
- 即使是 simulator4h 数据也需要差不多 1h 运行24h 下效率太低
## TBD
- 统一 preprocess 一遍 24h 的 traceA 和 traceB得到一份统一好用的 trace
- 优化现有脚本,把 load all 改为 streaming支持 24h 的 trace 处理
- 刷一遍现有 trace 分析的数据
- 改为 24h 后,一天内应该会出现特征的波动,为了说明一段较长的连续时间内是稳定的(小时级别),可能需要同时展示 24h 和 2h 的数据(高峰/低谷9-11 / 22-24
- 预期特征与之前分析的结论一致。24h 下一天的波动可能能带来一些新发现
- suggestion from 大爷:一个表,现有 paper 的假设/观察 和我们在实际工业界 trace 观察的关系:结论相同?相悖?
## From vLLM v1 meetup
1. 移除 prefill 和 decode 的概念
![[projects/kvcachecache/Refine roadmap.figs/250414-000021.png]]
2. 不做 PD 分离,对 scheduler 自然提出了很高的要求(需要 scheduler 尽可能避免 compute-bound/memory-bound。vLLM 团队也有计划做 workload-specific scheduler。不过他们这个是请求到来的 workload-aware不是我们之前的 KVCache 的 workload-aware。我们 refine 工作时,可能也可以思考 workload-aware 对 scheduler 能提供什么帮助。【需要先熟悉 vLLM v1 最新的 scheduler】
![[projects/kvcachecache/Refine roadmap.figs/250414-000021-1.png]]
3. 针对不同场景 Reasoning/Coding/... 做优化,我们的 workload-aware 能否考虑到这类信息,对系统设计/优化提供有价值的信息?
![[projects/kvcachecache/Refine roadmap.figs/250812-140723.png]]
# Response
- [ ] workload 对 PD 分离 global scheduler 有什么启发?
- [ ] workload 对 MoE 的影响?不同 workload 下,硬件配比是否有变化?
- [ ] Deepseek 320 experts 320 卡每张卡一个 expert如果在 8 卡下跑expert 如何分布?激活特性?