Initial commit: obsidian to gitea

This commit is contained in:
2026-05-07 15:04:41 +08:00
commit a57afa86b4
323 changed files with 42569 additions and 0 deletions

View File

@@ -0,0 +1,12 @@
# TBD
- [ ] 把 deepseek v3 跑起来。为什么 decode 需要 320 卡?如果多个 experts 在同一张卡会怎么样8 卡下性能如何expert parallelism 怎么 work 的?
- [x] 找到可以在 8 * A100 上跑的 V3 【DeepSeek-V3-AWQ】
- [ ] 修改 vLLM分析 expert 如何激活、如何做 expert parallelism
- [ ] 测试推理性能
- [ ] 分析 experts 负载状况
- [ ] 新 trace 的统一格式化处理,分析对比与之前 1h trace 是否存在区别,是否有新特征
- [x] 给出统一的 trace 格式规范,写好 doc
- [x] 支持 streaming 处理,格式化数据
- [ ] 刷新之前的测试图
- [ ] 调研 TensorFlow 为什么被 PyTorch 干趴下了,做对了什么/做错了什么?

View File

@@ -0,0 +1,3 @@
- [ ] vLLM 分布式 KV cache 管理: https://github.com/vllm-project/aibrix
- [x] 准备 FAST'25 KV cache related paper sharing
- [x] 完成 traceA/B 的 24h format

View File

@@ -0,0 +1,7 @@
- [ ] 调研企业级私有化部署 DeepSeek 的机会
- [ ] llama.cpp 有什么问题?是不是只适合单机?
- [ ] ktransformer 相比 llama.cpp 为什么有优势?他们是不是只 focus 在单机?企业级部署不像个人使用,提供 global scheduler 后跟多个单机跑有什么问题?分布式并行跑有什么问题?
- [ ] M2 Ultra 这种 unified memory 芯片有提供低成本部署的机会吗?
- 机会点计算很可能在往稀疏性发展MoE 等。m 系列芯片这种内存大算力一般的芯片可能具有一定优势
- m 系列芯片互联带宽在 1040Gb 之间(相比 450Gb+ 的 NVLink会不会成为 bottleneck

View File

@@ -0,0 +1,16 @@
- [x] 提供一个构造 不同时间段 / 不同总时长 / 不同 QPS 的 vLLM 真实测试的 trace 构造器,需要保证:小 QPS 是大 QPS 的子集(避免平均长度不同)
- [x] trace 分析
- [x] QPS
- [x] 平均输入输出长度
- [x] 有上一轮对话的比例
- [x] 上下轮对话之间间隔时间的 mean/p90/p50/...
- [ ] 不同 workload 的 one-shot 比例
- [ ] s3-fifo 的不同 one-shot 比例与 S/M 比例的关系
- [ ] DistServe 的 simulator 做了什么?

View File

@@ -0,0 +1,4 @@
- [ ] Sarathi(https://arxiv.org/abs/2308.16369)
- [ ] HybridFlow(https://arxiv.org/pdf/2409.19256)

View File

View File

@@ -0,0 +1 @@
- [ ] 使用 trace 测试 MoE 的 activate pattern

View File

@@ -0,0 +1,6 @@
- [ ] review EuroSys paper <0/5>
- [ ] deep research for review the comments from reviewers and review papers
- [ ] run deep research to check the agent workflow overhead
- [ ] 整理 ali 的 infra arch