diff --git a/docs/runs/README.md b/docs/runs/README.md
index 3a8ba61..0456865 100644
--- a/docs/runs/README.md
+++ b/docs/runs/README.md
@@ -15,18 +15,23 @@ val loss 一栏给的是各版**各自训练 run 报告的 best val**（held-out
 注：v0/v1 训练用 seq128、v2 用 seq256，eval 窗口不同 → 同一保留集 + 同一 eval 设置（seq256/64batch）
 重评 v1=2.6756→v2=2.0418（低 0.634，apples-to-apples）；下表 best-val 同向。
 
-| 版本 | 数据 | 架构 (dim/L/heads·hd/ffn) | core 参数 | 总参数 | val loss | 备注 |
-|---|---|---|---|---|---|---|
-| [v0-baseline](../../docs/05-training-loop.md) | TinyStories valid 3MB 切片 (~72 万 tok) | 32 / 4 / 2·16 / 64 | ~41K | 3.26M | **3.8050** | 太小不可用；采样陷入 "mommy's mommy's mommy" 循环 |
-| [v1-tinystories-dim256](01-v1-tinystories-dim256.md) | TinyStories **全量 train** (468.3M tok, u16 缓存) | 256 / 8 / 8·32 / 1024 | 8.39M | 34.13M | **2.5847** | 全量数据 + dim256/8L；val 低 1.22，采样连贯成篇；~25.9min/单卡 |
-| [v2-tinystories-dim384](02-v2-tinystories-dim384.md) | TinyStories 全量 (复用 v1 缓存, 训 ~36.9M tok) | 384 / 12 / 12·32 / 1536 | 28.32M | 66.92M | **1.7055** | dim384/12L + **DDP 4 卡**；val 比 v1 低 0.88，情节更长；~2.8h/4 卡。⚠️ DDP 弱扩展见 [KI-1](../known-issues.md) |
-| [v3-tinystories-dim512](03-v3-tinystories-dim512.md) | TinyStories 全量 (复用 v1 缓存, 训 ~245.8M tok, ~0.53 epoch) | 512 / 16 / 16·32 / 2048 | 67.13M | 118.59M | **1.3027** | dim512/16L + **单卡 batched (T10)**；val 比 v2 低 0.40，带动机/转折的连续叙事；~2.65h/单卡 ~26K tok/s。T10 修 KI-1 根因(launch-bound)，单卡避开 KI-5 |
-| [v4-tinystories-dim768](04-v4-tinystories-dim768.md) | TinyStories 全量 (复用 v1 缓存, 训 ~720.9M tok, ~1.54 epoch) | 768 / 18 / 24·32 / 2048 | 127.43M | 204.63M | **1.1690** | dim768/18L + **8 卡 DDP fp32**；val 比 v3 低 0.13，细节更具体、结构更完整；~84min/8 卡 ~145K tok/s。验证 T11 缓存分配器在 dim768 多卡扩展；⚠️ fp32 per-rank batch 32 OOM = bf16(KI-2) 触发点 |
+**tokens / epoch 两列让数据饱和可见**：v4→v5 同 arch、数据 ×3.5（1.54→5.33 epoch），val 仅 ↓0.06（~5%）
+且末段走平 ⇒ TinyStories 在 dim768 已近**数据天花板**（详见 [05-v5](05-v5-tinystories-dim768.md)）。
+
+| 版本 | 数据 | 训练 token | epoch | 架构 (dim/L/heads·hd/ffn) | core 参数 | 总参数 | val loss | 备注 |
+|---|---|---|---|---|---|---|---|---|
+| [v0-baseline](../../docs/05-training-loop.md) | TinyStories valid 3MB 切片 (~72 万 tok) | ~0.72M | — | 32 / 4 / 2·16 / 64 | ~41K | 3.26M | **3.8050** | 太小不可用；采样陷入 "mommy's mommy's mommy" 循环 |
+| [v1-tinystories-dim256](01-v1-tinystories-dim256.md) | TinyStories **全量 train** (468.3M tok, u16 缓存) | ~5.1M | — | 256 / 8 / 8·32 / 1024 | 8.39M | 34.13M | **2.5847** | 全量数据 + dim256/8L；val 低 1.22，采样连贯成篇；~25.9min/单卡 |
+| [v2-tinystories-dim384](02-v2-tinystories-dim384.md) | TinyStories 全量 (复用 v1 缓存) | ~36.9M | — | 384 / 12 / 12·32 / 1536 | 28.32M | 66.92M | **1.7055** | dim384/12L + **DDP 4 卡**；val 比 v1 低 0.88，情节更长；~2.8h/4 卡。⚠️ DDP 弱扩展见 [KI-1](../known-issues.md) |
+| [v3-tinystories-dim512](03-v3-tinystories-dim512.md) | TinyStories 全量 (复用 v1 缓存) | ~245.8M | ~0.53 | 512 / 16 / 16·32 / 2048 | 67.13M | 118.59M | **1.3027** | dim512/16L + **单卡 batched (T10)**；val 比 v2 低 0.40，带动机/转折的连续叙事；~2.65h/单卡 ~26K tok/s。T10 修 KI-1 根因(launch-bound)，单卡避开 KI-5 |
+| [v4-tinystories-dim768](04-v4-tinystories-dim768.md) | TinyStories 全量 (复用 v1 缓存) | ~720.9M | ~1.54 | 768 / 18 / 24·32 / 2048 | 127.43M | 204.63M | **1.1690** | dim768/18L + **8 卡 DDP fp32**；val 比 v3 低 0.13，细节更具体、结构更完整；~84min/8 卡 ~145K tok/s。验证 T11 缓存分配器在 dim768 多卡扩展；⚠️ fp32 per-rank batch 32 OOM = bf16(KI-2) 触发点 |
+| [v5-tinystories-dim768](05-v5-tinystories-dim768.md) | TinyStories 全量 (复用 v1 缓存) | **~2.49B** | **~5.33** | 768 / 18 / 24·32 / 2048 (**同 v4**) | 127.43M | 204.63M | **1.1102** | **架构同 v4**，唯一变量=数据量 + **8 卡 DDP bf16**(global 256)；~3.2h/8 卡 ~217K tok/s。⚠️ **数据天花板**：数据 ×3.5 仅 val ↓0.06(~5%) 且末段走平 ⇒ TinyStories 在 dim768 近饱和，v6 该换轴(更大模型/更广语料) |
 
 ## 下一档（提案）
 
-- **v5**（待派发）：见 `04-v4-*.md` 末尾 "v5 提案"——先上 **bf16（KI-2，v4 已触发：dim768 fp32 batch-32
-  OOM）** 找回 batch-256 甜点区；数据上 v4 才 ~1.54 epoch 仍欠拟合，**更多 TinyStories token / 开始广化
-  语料**（TinyStories + 通用高质语料）继续降 val；按需 process-per-GPU 提高 8 卡线性、换更贴合 tokenizer
-  (KI-4)。
+- **v6**（待派发）：v5 给出**数据天花板**结论（同 arch 数据 ×3.5 仅 val ↓5% 且末段走平，TinyStories 在
+  dim768 已近饱和）——v6 该**换轴**，见 `05-v5-*.md` 末尾 "v6 提案"。两条候选：**A 更大模型（dim1024+，
+  容量上限尚未触顶；dim 越大 KI-4 占比越摊薄）** vs **B 更广语料（FineWeb-edu 等 + 可能换 tokenizer KI-4，
+  抬高语料信息上限）**。判断 **B 解锁空间更大**（v5 的瓶颈是语料而非容量，只放大模型很快又撞 TinyStories 信息上限）；
+  理想 A+B 同时。**KI-3（激活重计算）仅在 v6 走 A（dim1024+）时才需要**，与放大模型路线绑定。
 </content>