Files
obsidian/phd/research/MoE/Papers.md

31 lines
2.2 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

#### [MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing](https://arxiv.org/pdf/2502.06643v1)
两个问题1. expert 间负载不均衡2. distributed 时 token 在 expert 间的路由不均衡,通信时延大
1. 整数线性规划ILP优化
MOETUNER 通过 ILP 来优化专家放置,同时考虑 token 负载、通信和计算成本。ILP 能够在给定的约束条件下找到最优解,确保专家放置策略能够最大化 GPU 利用率,最小化空闲时间,并减少跨 GPU 的通信开销。
2. 利用跨层依赖性
MOETUNER 利用了跨层 token 路由依赖性的特性,即一个 token 在某一层被路由到特定的专家后它在下一层更有可能被路由到某些特定的专家。通过这种依赖性MOETUNER 可以更有效地减少跨 GPU 的通信,并确保 token 路由的负载在不同 GPU 之间更加平衡。
3. 两阶段 ILP 优化
MOETUNER 的 ILP 优化分为两个阶段:
第一阶段负载均衡的专家聚类Load-Balanced Expert Clustering
目标:在每一层中,将专家聚类,使得每个聚类的 token 处理负载尽可能均衡。
方法:通过 ILP 优化,将专家分配到不同的聚类中,确保每个聚类的 token 负载接近平均负载。
第二阶段:聚类到 GPU 的分配Cluster-to-GPU Assignment
目标:将聚类分配到不同的 GPU 上,以最小化跨 GPU 的 token 路由成本。
方法:通过 ILP 优化,将聚类分配到 GPU 上,同时考虑通信成本和 GPU 的容量限制。
#### [DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale](https://arxiv.org/pdf/2201.05596)
提出了一种新的 MoE 架构设计,称为 Pyramid-Residual MoE (PR-MoE),通过在模型的后几层使用更多的专家,并引入残差连接,减少了模型参数大小,同时保持模型质量
![[250216-215720.png]]
- [ ] How does expert parallelism work?
#### [ProMoE: Fast MoE-based LLM Serving using Proactive Caching](https://arxiv.org/pdf/2410.22134)
#### [fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving](https://www.arxiv.org/pdf/2502.05370)