# TBD - [ ] 把 deepseek v3 跑起来。为什么 decode 需要 320 卡?如果多个 experts 在同一张卡会怎么样?8 卡下性能如何?expert parallelism 怎么 work 的? - [x] 找到可以在 8 * A100 上跑的 V3 【DeepSeek-V3-AWQ】 - [ ] 修改 vLLM,分析 expert 如何激活、如何做 expert parallelism - [ ] 测试推理性能 - [ ] 分析 experts 负载状况 - [ ] 新 trace 的统一格式化处理,分析对比与之前 1h trace 是否存在区别,是否有新特征 - [x] 给出统一的 trace 格式规范,写好 doc - [x] 支持 streaming 处理,格式化数据 - [ ] 刷新之前的测试图 - [ ] 调研 TensorFlow 为什么被 PyTorch 干趴下了,做对了什么/做错了什么?