Initial commit: obsidian to gitea
This commit is contained in:
30
phd/research/MoE/Papers.md
Normal file
30
phd/research/MoE/Papers.md
Normal file
@@ -0,0 +1,30 @@
|
||||
#### [MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing](https://arxiv.org/pdf/2502.06643v1)
|
||||
两个问题:1. expert 间负载不均衡;2. distributed 时 token 在 expert 间的路由不均衡,通信时延大
|
||||
1. 整数线性规划(ILP)优化
|
||||
MOETUNER 通过 ILP 来优化专家放置,同时考虑 token 负载、通信和计算成本。ILP 能够在给定的约束条件下找到最优解,确保专家放置策略能够最大化 GPU 利用率,最小化空闲时间,并减少跨 GPU 的通信开销。
|
||||
2. 利用跨层依赖性
|
||||
MOETUNER 利用了跨层 token 路由依赖性的特性,即一个 token 在某一层被路由到特定的专家后,它在下一层更有可能被路由到某些特定的专家。通过这种依赖性,MOETUNER 可以更有效地减少跨 GPU 的通信,并确保 token 路由的负载在不同 GPU 之间更加平衡。
|
||||
3. 两阶段 ILP 优化
|
||||
MOETUNER 的 ILP 优化分为两个阶段:
|
||||
第一阶段:负载均衡的专家聚类(Load-Balanced Expert Clustering)
|
||||
目标:在每一层中,将专家聚类,使得每个聚类的 token 处理负载尽可能均衡。
|
||||
方法:通过 ILP 优化,将专家分配到不同的聚类中,确保每个聚类的 token 负载接近平均负载。
|
||||
第二阶段:聚类到 GPU 的分配(Cluster-to-GPU Assignment)
|
||||
目标:将聚类分配到不同的 GPU 上,以最小化跨 GPU 的 token 路由成本。
|
||||
方法:通过 ILP 优化,将聚类分配到 GPU 上,同时考虑通信成本和 GPU 的容量限制。
|
||||
|
||||
|
||||
#### [DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale](https://arxiv.org/pdf/2201.05596)
|
||||
提出了一种新的 MoE 架构设计,称为 Pyramid-Residual MoE (PR-MoE),通过在模型的后几层使用更多的专家,并引入残差连接,减少了模型参数大小,同时保持模型质量
|
||||
![[250216-215720.png]]
|
||||
- [ ] How does expert parallelism work?
|
||||
|
||||
|
||||
|
||||
#### [ProMoE: Fast MoE-based LLM Serving using Proactive Caching](https://arxiv.org/pdf/2410.22134)
|
||||
|
||||
|
||||
|
||||
#### [fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving](https://www.arxiv.org/pdf/2502.05370)
|
||||
|
||||
|
||||
Reference in New Issue
Block a user