obsidian/Meta Analysis.md at main

gahow/obsidian

Files

Gahow Wang a57afa86b4 Initial commit: obsidian to gitea

2026-05-07 15:04:41 +08:00

在 vllm 上跑起来 Qwen3-32B，使用现有 trace 测试 expert 的 activation pattern 延续现有工作：
- 不同 workload 下 expert 的 activation pattern 是否有较为显著的区别其它：
- 当前模型在真实 trace 下 expert 的负载均衡程度
EP scaling，EP32 -> EP320，中间状态的效率与 scaling 中的 params 迁移问题
edge 上常用动态 load 到 GPU 计算（另一种说法：offload 到 CPU 计算），云上在往大 EP 方向发展，大 EP 的必要性？大 EP 需要超大 instance，给 scaling 带来的挑战？
多个 MoE 模型的比较

From 何涛：Qwen 现在的模型还是一个比较瘦高的结构，EP 不友好（需要多 expert 数量做通信，才有收益），当前线上还是跑的 TP，EP 主要是为下一代模型服务