我们的目标: 对上向模型提供一套抽象 IR,能够以接近 0 成本的方式适配新模型,将模型编译至 IR. 针对我们定义的 IR,可以在 IR 层面对模型的分布式部署策略、推理负载动态性等做抽象的优化,得到优化方案适配不同的后端推理框架。