docs: Phase 21 — decode CUDA graph + GPU argmax results

dash5, gpt-oss-20b FP8, warm-server vs llama.cpp MXFP4 (6 reps):
TP=2 TPOT 5.76-5.89 vs 7.42-8.45 ms (xserv 1.26-1.47x), TTFT 2.4x
ahead short/medium; TP=1 5.78-5.95 vs 2.80-3.22 ms (gap 2.5x -> 2.0x,
TTFT now ahead short/medium). GSM8K-50 through the graph path: 94%.
Lesson recorded: graphs bought ~0.6 ms (launches were already hidden
by async execution), the GPU argmax ~1 ms — measure, don't guess.

Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>
This commit is contained in:
2026-06-12 20:12:37 +08:00
parent 8414f8d1e6
commit 013465fc06
4 changed files with 149 additions and 20 deletions

View File

@@ -12,13 +12,14 @@ xserv 不依赖 PyTorch / vLLM / TensorRT 等现成框架,自己实现了张
- **模型**GPT-2124M、Qwen3-8BBF16、gpt-oss-20b32 专家 top-4 MoEharmony 格式)
- **性能**RTX 5090贪心单流
- Qwen3-8B BF16 单卡:约 56 tok/sHF transformers 的 1.4×
- gpt-oss-20b FP8 稀疏 MoE TP=2**132 tok/sTPOT 7.2msdecode 快于
llama.cpp 同配置**7.5-8.4msllama 单卡模式2.9ms)仍领先,是下一阶段目标
- gpt-oss-20b FP8 稀疏 MoE + CUDA Graph decode**TPOT 5.8ms~172 tok/s
TP=1/2 同速)**;同配置 TP=2 全面快于 llama.cpp1.26-1.47×llama
单卡模式2.8ms)仍领先,差距 2.0×
- **精度**GSM8K 全量与 llama.cpp 同权重持平94.5% vs 94.4%FP8/MXFP4 量化无回归
- **服务**OpenAI 兼容 `/v1/chat/completions`SSE 流式gpt-oss 量化后可**单卡 32GB 服务**
- **关键能力**:自写 GEMM / Flash-Attention 2(SM120含 attention sinks + sliding window) /
Paged-Attention kernel、分页 KV cache**CPU 换出/换入**)、连续批处理、
CUDA Graph 解码Qwen3 单卡路径)、**Tensor/Pipeline 并行**NCCLTP=1/2/4、PP=2/4
CUDA Graph 解码Qwen3 单卡 + gpt-oss 全路径整图回放)、**Tensor/Pipeline 并行**NCCLTP=1/2/4、PP=2/4
**FP8 W8A8 / MXFP4 W4A16 量化**、**稀疏 top-k MoE decode**(只算被路由的专家)
> 这是一个以学习为主的项目,逐 Phase 推进,每步都做数值/端到端验证。
@@ -193,12 +194,14 @@ GSM8K 12 个格子全是 29/30xserv 与 llama.cpp 完全一致AIME 的 ±1
## 路线图(节选)
已完成 Phase 018CUDA 基础设施 → Tensor → GEMM → Transformer kernels → Attention →
已完成 Phase 021CUDA 基础设施 → Tensor → GEMM → Transformer kernels → Attention →
模型加载 → 分词器 → GPT-2 → KV cache → Qwen3-8B → Paged Attention → 连续批处理 →
HTTP API → Flash Attention 2 → 性能优化 → **张量并行TP****流水线并行PP**
HTTP API → Flash Attention 2 → 性能优化 → **张量并行TP****流水线并行PP**
**gpt-oss MoE + FP8/MXFP4 量化****稀疏 top-k MoE decode****decode CUDA Graph 整图回放**
并加入了 **llama.cpp 对比基准****KV CPU 换出** 等基础设施。
后续方向:PP microbatch/1F1B 流水线重叠吞吐收益、2D TP×PP、投机解码、量化FP8 / INT8、多模态。
后续方向:非专家权重量化lm_head/qkv/o、稀疏 prefillgrouped GEMM、server 侧 harmony
channel 分离、PP microbatch/1F1B、投机解码、多模态。详见 `docs/00-roadmap.md` 的实际进展记录。
## 许可