2.2 KiB
2.2 KiB
MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing
两个问题:1. expert 间负载不均衡;2. distributed 时 token 在 expert 间的路由不均衡,通信时延大
- 整数线性规划(ILP)优化 MOETUNER 通过 ILP 来优化专家放置,同时考虑 token 负载、通信和计算成本。ILP 能够在给定的约束条件下找到最优解,确保专家放置策略能够最大化 GPU 利用率,最小化空闲时间,并减少跨 GPU 的通信开销。
- 利用跨层依赖性 MOETUNER 利用了跨层 token 路由依赖性的特性,即一个 token 在某一层被路由到特定的专家后,它在下一层更有可能被路由到某些特定的专家。通过这种依赖性,MOETUNER 可以更有效地减少跨 GPU 的通信,并确保 token 路由的负载在不同 GPU 之间更加平衡。
- 两阶段 ILP 优化 MOETUNER 的 ILP 优化分为两个阶段: 第一阶段:负载均衡的专家聚类(Load-Balanced Expert Clustering) 目标:在每一层中,将专家聚类,使得每个聚类的 token 处理负载尽可能均衡。 方法:通过 ILP 优化,将专家分配到不同的聚类中,确保每个聚类的 token 负载接近平均负载。 第二阶段:聚类到 GPU 的分配(Cluster-to-GPU Assignment) 目标:将聚类分配到不同的 GPU 上,以最小化跨 GPU 的 token 路由成本。 方法:通过 ILP 优化,将聚类分配到 GPU 上,同时考虑通信成本和 GPU 的容量限制。
DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale
提出了一种新的 MoE 架构设计,称为 Pyramid-Residual MoE (PR-MoE),通过在模型的后几层使用更多的专家,并引入残差连接,减少了模型参数大小,同时保持模型质量
!
- How does expert parallelism work?