Initial commit: obsidian to gitea
This commit is contained in:
15
projects/moe-autoscaling/Meta Analysis.md
Normal file
15
projects/moe-autoscaling/Meta Analysis.md
Normal file
@@ -0,0 +1,15 @@
|
||||
- [ ] 在 vllm 上跑起来 Qwen3-32B,使用现有 trace 测试 expert 的 activation pattern
|
||||
延续现有工作:
|
||||
- 不同 workload 下 expert 的 activation pattern 是否有较为显著的区别
|
||||
其它:
|
||||
- 当前模型在真实 trace 下 expert 的负载均衡程度
|
||||
- [ ] EP scaling,EP32 -> EP320,中间状态的效率与 scaling 中的 params 迁移问题
|
||||
- [ ] edge 上常用动态 load 到 GPU 计算(另一种说法:offload 到 CPU 计算),云上在往大 EP 方向发展,大 EP 的必要性?大 EP 需要超大 instance,给 scaling 带来的挑战?
|
||||
- [ ] 多个 MoE 模型的比较
|
||||
- [ ]
|
||||
|
||||
|
||||
---
|
||||
### Background
|
||||
|
||||
From 何涛:Qwen 现在的模型还是一个比较瘦高的结构,EP 不友好(需要多 expert 数量做通信,才有收益),当前线上还是跑的 TP,EP 主要是为下一代模型服务
|
||||
Reference in New Issue
Block a user