Files
obsidian/period/weekly/25/0217-0223.md

739 B
Raw Blame History

TBD

  • 把 deepseek v3 跑起来。为什么 decode 需要 320 卡?如果多个 experts 在同一张卡会怎么样8 卡下性能如何expert parallelism 怎么 work 的?
    • 找到可以在 8 * A100 上跑的 V3 【DeepSeek-V3-AWQ】
    • 修改 vLLM分析 expert 如何激活、如何做 expert parallelism
    • 测试推理性能
    • 分析 experts 负载状况
  • 新 trace 的统一格式化处理,分析对比与之前 1h trace 是否存在区别,是否有新特征
    • 给出统一的 trace 格式规范,写好 doc
    • 支持 streaming 处理,格式化数据
    • 刷新之前的测试图
  • 调研 TensorFlow 为什么被 PyTorch 干趴下了,做对了什么/做错了什么?