obsidian/Papers.md at 8036c9016c25ef801bc279902f76583bb052c820

gahow/obsidian

Files

Gahow Wang a57afa86b4 Initial commit: obsidian to gitea

2026-05-07 15:04:41 +08:00

两个问题：1. expert 间负载不均衡；2. distributed 时 token 在 expert 间的路由不均衡，通信时延大

整数线性规划（ILP）优化 MOETUNER 通过 ILP 来优化专家放置，同时考虑 token 负载、通信和计算成本。ILP 能够在给定的约束条件下找到最优解，确保专家放置策略能够最大化 GPU 利用率，最小化空闲时间，并减少跨 GPU 的通信开销。
利用跨层依赖性 MOETUNER 利用了跨层 token 路由依赖性的特性，即一个 token 在某一层被路由到特定的专家后，它在下一层更有可能被路由到某些特定的专家。通过这种依赖性，MOETUNER 可以更有效地减少跨 GPU 的通信，并确保 token 路由的负载在不同 GPU 之间更加平衡。
两阶段 ILP 优化 MOETUNER 的 ILP 优化分为两个阶段：第一阶段：负载均衡的专家聚类（Load-Balanced Expert Clustering）目标：在每一层中，将专家聚类，使得每个聚类的 token 处理负载尽可能均衡。方法：通过 ILP 优化，将专家分配到不同的聚类中，确保每个聚类的 token 负载接近平均负载。第二阶段：聚类到 GPU 的分配（Cluster-to-GPU Assignment）目标：将聚类分配到不同的 GPU 上，以最小化跨 GPU 的 token 路由成本。方法：通过 ILP 优化，将聚类分配到 GPU 上，同时考虑通信成本和 GPU 的容量限制。

提出了一种新的 MoE 架构设计，称为 Pyramid-Residual MoE (PR-MoE)，通过在模型的后几层使用更多的专家，并引入残差连接，减少了模型参数大小，同时保持模型质量 !