Files
obsidian/projects/moe-autoscaling/Meta Analysis.md

16 lines
853 B
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

- [ ] 在 vllm 上跑起来 Qwen3-32B使用现有 trace 测试 expert 的 activation pattern
延续现有工作:
- 不同 workload 下 expert 的 activation pattern 是否有较为显著的区别
其它:
- 当前模型在真实 trace 下 expert 的负载均衡程度
- [ ] EP scalingEP32 -> EP320中间状态的效率与 scaling 中的 params 迁移问题
- [ ] edge 上常用动态 load 到 GPU 计算另一种说法offload 到 CPU 计算),云上在往大 EP 方向发展,大 EP 的必要性?大 EP 需要超大 instance给 scaling 带来的挑战?
- [ ] 多个 MoE 模型的比较
- [ ]
---
### Background
From 何涛Qwen 现在的模型还是一个比较瘦高的结构EP 不友好(需要多 expert 数量做通信,才有收益),当前线上还是跑的 TPEP 主要是为下一代模型服务