Initial commit: obsidian to gitea

2026-05-07 15:04:41 +08:00
commit a57afa86b4
323 changed files with 42569 additions and 0 deletions
--- a/phd/research/MoE/Papers.md
+++ b/phd/research/MoE/Papers.md
@@ -0,0 +1,30 @@
+#### [MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing](https://arxiv.org/pdf/2502.06643v1)
+两个问题：1. expert 间负载不均衡；2. distributed 时 token 在 expert 间的路由不均衡，通信时延大
+1. 整数线性规划（ILP）优化
+MOETUNER 通过 ILP 来优化专家放置，同时考虑 token 负载、通信和计算成本。ILP 能够在给定的约束条件下找到最优解，确保专家放置策略能够最大化 GPU 利用率，最小化空闲时间，并减少跨 GPU 的通信开销。
+2. 利用跨层依赖性
+MOETUNER 利用了跨层 token 路由依赖性的特性，即一个 token 在某一层被路由到特定的专家后，它在下一层更有可能被路由到某些特定的专家。通过这种依赖性，MOETUNER 可以更有效地减少跨 GPU 的通信，并确保 token 路由的负载在不同 GPU 之间更加平衡。
+3. 两阶段 ILP 优化
+MOETUNER 的 ILP 优化分为两个阶段：
+第一阶段：负载均衡的专家聚类（Load-Balanced Expert Clustering）
+目标：在每一层中，将专家聚类，使得每个聚类的 token 处理负载尽可能均衡。
+方法：通过 ILP 优化，将专家分配到不同的聚类中，确保每个聚类的 token 负载接近平均负载。
+第二阶段：聚类到 GPU 的分配（Cluster-to-GPU Assignment）
+目标：将聚类分配到不同的 GPU 上，以最小化跨 GPU 的 token 路由成本。
+方法：通过 ILP 优化，将聚类分配到 GPU 上，同时考虑通信成本和 GPU 的容量限制。
+
+
+#### [DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale](https://arxiv.org/pdf/2201.05596)
+提出了一种新的 MoE 架构设计，称为 Pyramid-Residual MoE (PR-MoE)，通过在模型的后几层使用更多的专家，并引入残差连接，减少了模型参数大小，同时保持模型质量
+![[250216-215720.png]]
+- [ ] How does expert parallelism work?
+
+
+
+#### [ProMoE: Fast MoE-based LLM Serving using Proactive Caching](https://arxiv.org/pdf/2410.22134)
+
+
+
+#### [fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving](https://www.arxiv.org/pdf/2502.05370)
+
+