Initial commit: obsidian to gitea

2026-05-07 15:04:41 +08:00
commit a57afa86b4
323 changed files with 42569 additions and 0 deletions
--- a/period/weekly/25/0217-0223.md
+++ b/period/weekly/25/0217-0223.md
@@ -0,0 +1,12 @@
+# TBD
+
+- [ ] 把 deepseek v3 跑起来。为什么 decode 需要 320 卡？如果多个 experts 在同一张卡会怎么样？8 卡下性能如何？expert parallelism 怎么 work 的？
+	- [x] 找到可以在 8 * A100 上跑的 V3 【DeepSeek-V3-AWQ】
+	- [ ] 修改 vLLM，分析 expert 如何激活、如何做 expert parallelism
+	- [ ] 测试推理性能
+	- [ ] 分析 experts 负载状况
+- [ ] 新 trace 的统一格式化处理，分析对比与之前 1h trace 是否存在区别，是否有新特征
+	- [x] 给出统一的 trace 格式规范，写好 doc
+	- [x] 支持 streaming 处理，格式化数据
+	- [ ] 刷新之前的测试图
+- [ ] 调研 TensorFlow 为什么被 PyTorch 干趴下了，做对了什么/做错了什么？
--- a/period/weekly/25/0224-0302.md
+++ b/period/weekly/25/0224-0302.md
@@ -0,0 +1,3 @@
+- [ ] vLLM 分布式 KV cache 管理： https://github.com/vllm-project/aibrix 
+- [x] 准备 FAST'25 KV cache related paper sharing
+- [x] 完成 traceA/B 的 24h format
--- a/period/weekly/25/0303-0309.md
+++ b/period/weekly/25/0303-0309.md
@@ -0,0 +1,7 @@
+- [ ] 调研企业级私有化部署 DeepSeek 的机会
+	- [ ] llama.cpp 有什么问题？是不是只适合单机？
+	- [ ] ktransformer 相比 llama.cpp 为什么有优势？他们是不是只 focus 在单机？企业级部署不像个人使用，提供 global scheduler 后跟多个单机跑有什么问题？分布式并行跑有什么问题？
+	- [ ] M2 Ultra 这种 unified memory 芯片有提供低成本部署的机会吗？
+		- 机会点：计算很可能在往稀疏性发展，MoE 等。m 系列芯片这种内存大算力一般的芯片可能具有一定优势
+		- m 系列芯片互联带宽在 10～40Gb 之间（相比 450Gb+ 的 NVLink），会不会成为 bottleneck
+
--- a/period/weekly/25/0310-0316.md
+++ b/period/weekly/25/0310-0316.md
@@ -0,0 +1,16 @@
+- [x] 提供一个构造 不同时间段 / 不同总时长 / 不同 QPS 的 vLLM 真实测试的 trace 构造器，需要保证：小 QPS 是大 QPS 的子集（避免平均长度不同）
+
+
+- [x] trace 分析
+	- [x] QPS
+	- [x] 平均输入输出长度
+	- [x] 有上一轮对话的比例
+	- [x] 上下轮对话之间间隔时间的 mean/p90/p50/...
+	- [ ] 不同 workload 的 one-shot 比例
+		- [ ] s3-fifo 的不同 one-shot 比例与 S/M 比例的关系
+
+
+
+
+
+- [ ] DistServe 的 simulator 做了什么？
--- a/period/weekly/25/0317-0323.md
+++ b/period/weekly/25/0317-0323.md
@@ -0,0 +1,4 @@
+- [ ] Sarathi(https://arxiv.org/abs/2308.16369)
+- [ ] HybridFlow(https://arxiv.org/pdf/2409.19256)
+
+
--- a/period/weekly/25/0331-0406.md
+++ b/period/weekly/25/0331-0406.md
--- a/period/weekly/25/0512-0518.md
+++ b/period/weekly/25/0512-0518.md
@@ -0,0 +1 @@
+- [ ] 使用 trace 测试 MoE 的 activate pattern
--- a/period/weekly/25/0714-0720.md
+++ b/period/weekly/25/0714-0720.md
@@ -0,0 +1,6 @@
+- [ ] review EuroSys paper <0/5>
+- [ ] deep research for review the comments from reviewers and review papers
+- [ ] run deep research to check the agent workflow overhead
+- [ ] 整理 ali 的 infra arch
+
+
				`@@ -0,0 +1 @@`
				`- [ ] 使用 trace 测试 MoE 的 activate pattern`