# TBD

- [ ] 把 deepseek v3 跑起来。为什么 decode 需要 320 卡？如果多个 experts 在同一张卡会怎么样？8 卡下性能如何？expert parallelism 怎么 work 的？
	- [x] 找到可以在 8 * A100 上跑的 V3 【DeepSeek-V3-AWQ】
	- [ ] 修改 vLLM，分析 expert 如何激活、如何做 expert parallelism
	- [ ] 测试推理性能
	- [ ] 分析 experts 负载状况
- [ ] 新 trace 的统一格式化处理，分析对比与之前 1h trace 是否存在区别，是否有新特征
	- [x] 给出统一的 trace 格式规范，写好 doc
	- [x] 支持 streaming 处理，格式化数据
	- [ ] 刷新之前的测试图
- [ ] 调研 TensorFlow 为什么被 PyTorch 干趴下了，做对了什么/做错了什么？