docs: Phase 21 — decode CUDA graph + GPU argmax results
dash5, gpt-oss-20b FP8, warm-server vs llama.cpp MXFP4 (6 reps): TP=2 TPOT 5.76-5.89 vs 7.42-8.45 ms (xserv 1.26-1.47x), TTFT 2.4x ahead short/medium; TP=1 5.78-5.95 vs 2.80-3.22 ms (gap 2.5x -> 2.0x, TTFT now ahead short/medium). GSM8K-50 through the graph path: 94%. Lesson recorded: graphs bought ~0.6 ms (launches were already hidden by async execution), the GPU argmax ~1 ms — measure, don't guess. Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>
This commit is contained in:
15
README.md
15
README.md
@@ -12,13 +12,14 @@ xserv 不依赖 PyTorch / vLLM / TensorRT 等现成框架,自己实现了张
|
||||
- **模型**:GPT-2(124M)、Qwen3-8B(BF16)、gpt-oss-20b(32 专家 top-4 MoE,harmony 格式)
|
||||
- **性能**(RTX 5090,贪心,单流):
|
||||
- Qwen3-8B BF16 单卡:约 56 tok/s(HF transformers 的 1.4×)
|
||||
- gpt-oss-20b FP8 稀疏 MoE TP=2:**132 tok/s(TPOT 7.2ms),decode 快于
|
||||
llama.cpp 同配置**(7.5-8.4ms);llama 单卡模式(2.9ms)仍领先,是下一阶段目标
|
||||
- gpt-oss-20b FP8 稀疏 MoE + CUDA Graph decode:**TPOT 5.8ms(~172 tok/s,
|
||||
TP=1/2 同速)**;同配置 TP=2 全面快于 llama.cpp(1.26-1.47×),llama
|
||||
单卡模式(2.8ms)仍领先,差距 2.0×
|
||||
- **精度**:GSM8K 全量与 llama.cpp 同权重持平(94.5% vs 94.4%);FP8/MXFP4 量化无回归
|
||||
- **服务**:OpenAI 兼容 `/v1/chat/completions`,SSE 流式;gpt-oss 量化后可**单卡 32GB 服务**
|
||||
- **关键能力**:自写 GEMM / Flash-Attention 2(SM120,含 attention sinks + sliding window) /
|
||||
Paged-Attention kernel、分页 KV cache(含 **CPU 换出/换入**)、连续批处理、
|
||||
CUDA Graph 解码(Qwen3 单卡路径)、**Tensor/Pipeline 并行**(NCCL,TP=1/2/4、PP=2/4)、
|
||||
CUDA Graph 解码(Qwen3 单卡 + gpt-oss 全路径整图回放)、**Tensor/Pipeline 并行**(NCCL,TP=1/2/4、PP=2/4)、
|
||||
**FP8 W8A8 / MXFP4 W4A16 量化**、**稀疏 top-k MoE decode**(只算被路由的专家)
|
||||
|
||||
> 这是一个以学习为主的项目,逐 Phase 推进,每步都做数值/端到端验证。
|
||||
@@ -193,12 +194,14 @@ GSM8K 12 个格子全是 29/30,xserv 与 llama.cpp 完全一致;AIME 的 ±1
|
||||
|
||||
## 路线图(节选)
|
||||
|
||||
已完成 Phase 0–18:CUDA 基础设施 → Tensor → GEMM → Transformer kernels → Attention →
|
||||
已完成 Phase 0–21:CUDA 基础设施 → Tensor → GEMM → Transformer kernels → Attention →
|
||||
模型加载 → 分词器 → GPT-2 → KV cache → Qwen3-8B → Paged Attention → 连续批处理 →
|
||||
HTTP API → Flash Attention 2 → 性能优化 → **张量并行(TP)** → **流水线并行(PP)**;
|
||||
HTTP API → Flash Attention 2 → 性能优化 → **张量并行(TP)** → **流水线并行(PP)** →
|
||||
**gpt-oss MoE + FP8/MXFP4 量化** → **稀疏 top-k MoE decode** → **decode CUDA Graph 整图回放**;
|
||||
并加入了 **llama.cpp 对比基准** 与 **KV CPU 换出** 等基础设施。
|
||||
|
||||
后续方向:PP microbatch/1F1B 流水线重叠(吞吐收益)、2D TP×PP、投机解码、量化(FP8 / INT8)、多模态。
|
||||
后续方向:非专家权重量化(lm_head/qkv/o)、稀疏 prefill(grouped GEMM)、server 侧 harmony
|
||||
channel 分离、PP microbatch/1F1B、投机解码、多模态。详见 `docs/00-roadmap.md` 的实际进展记录。
|
||||
|
||||
## 许可
|
||||
|
||||
|
||||
Reference in New Issue
Block a user