obsidian/phd/research/MoE/Papers.md

#### [MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing](https://arxiv.org/pdf/2502.06643v1)
两个问题：1. expert 间负载不均衡；2. distributed 时 token 在 expert 间的路由不均衡，通信时延大
1. 整数线性规划（ILP）优化
MOETUNER 通过 ILP 来优化专家放置，同时考虑 token 负载、通信和计算成本。ILP 能够在给定的约束条件下找到最优解，确保专家放置策略能够最大化 GPU 利用率，最小化空闲时间，并减少跨 GPU 的通信开销。
2. 利用跨层依赖性
MOETUNER 利用了跨层 token 路由依赖性的特性，即一个 token 在某一层被路由到特定的专家后，它在下一层更有可能被路由到某些特定的专家。通过这种依赖性，MOETUNER 可以更有效地减少跨 GPU 的通信，并确保 token 路由的负载在不同 GPU 之间更加平衡。
3. 两阶段 ILP 优化
MOETUNER 的 ILP 优化分为两个阶段：
第一阶段：负载均衡的专家聚类（Load-Balanced Expert Clustering）
目标：在每一层中，将专家聚类，使得每个聚类的 token 处理负载尽可能均衡。
方法：通过 ILP 优化，将专家分配到不同的聚类中，确保每个聚类的 token 负载接近平均负载。
第二阶段：聚类到 GPU 的分配（Cluster-to-GPU Assignment）
目标：将聚类分配到不同的 GPU 上，以最小化跨 GPU 的 token 路由成本。
方法：通过 ILP 优化，将聚类分配到 GPU 上，同时考虑通信成本和 GPU 的容量限制。


#### [DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale](https://arxiv.org/pdf/2201.05596)
提出了一种新的 MoE 架构设计，称为 Pyramid-Residual MoE (PR-MoE)，通过在模型的后几层使用更多的专家，并引入残差连接，减少了模型参数大小，同时保持模型质量
![[250216-215720.png]]
- [ ] How does expert parallelism work?


#### [ProMoE: Fast MoE-based LLM Serving using Proactive Caching](https://arxiv.org/pdf/2410.22134)


#### [fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving](https://www.arxiv.org/pdf/2502.05370)