MoE 提供的 sys 可做的点(现有的工作分类): - expert offloading,通过在显存上只保存需要被激活的 expert,来大大降低显存需求,实现消费级显卡运行大模型。