docs: run v6 — FineWeb-edu graduation (val 3.07, new distribution)

第一版脱离 TinyStories：纯 FineWeb-edu 真实网页文本(2.255B 语料)，架构同 v4/v5(dim768/18L, core 127.43M)，8 卡 DDP bf16，2.29B tok/1.02ep，~1.9h @218K tok/s。train 11.03→3.14，best/final FineWeb val 3.0652。方法论：FineWeb val(3.07) 与 v0–v5 的 TinyStories val(~1.1) 不可比——真实网页熵高，~3.0 是预期非回退；判据是采样质量 + transfer eval。 - 新增 docs/runs/06-v6-fineweb-edu-dim768.md：数据管线(scripts/fineweb_to_txt.py) / 架构(同 v4/v5,隔离数据变量) / 超参 / 结果(val 单调降无走平=未饱和) / 方法论说明 / transfer eval(v6→TinyStories val 2.75 vs v5 native 1.11,纯通用数据对窄分布有代价) / v5-vs-v6 同提示词采样对比(v6 写真实说明文 vs v5 一律掉进小故事) - README 对比表加 v6 行(val 单独标注分布) + 换轴说明 + v7 提案 - evolution.md scaling 表 v6 行定稿 + 数据轴 TinyStories→FineWeb-edu 毕业说明 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-16 22:21:43 +08:00
parent 88bec270af
commit b4bb426d48
3 changed files with 220 additions and 7 deletions
--- a/docs/evolution.md
+++ b/docs/evolution.md
@@ -38,7 +38,7 @@
 | v3 | dim512/16L/16h · 67M/119M | TinyStories · 246M · 0.53ep | fp32 **batched(T10)** | 1 GPU · 26K | val 1.30 |
 | v4 | dim768/18L/24h · 127M/205M | TinyStories · 721M · 1.54ep | fp32 batched | **8 GPU(T11)** · 145K | val 1.17（仍欠拟合） |
 | v5 | dim768/18L（**同 v4**） | TinyStories · 2.49B · **5.33ep** | **bf16(T12)** | 8 GPU · 217K | val **1.11**：⚠️**TinyStories 饱和**（3.5×数据仅↓5%） |
-| v6 | dim768/18L（同 v4/v5） | **FineWeb-edu** 真实网页 · 2.29B · 1.02ep | bf16 | 8 GPU · 204K | 训练中（FineWeb val 与上**不可比**） |
+| v6 | dim768/18L（同 v4/v5） | **FineWeb-edu** 真实网页 · 2.29B · 1.02ep | bf16 | 8 GPU · 218K | val **3.07**：⚠️**FineWeb 留出集，与 v0–v5 不可比**（真实网页熵高，~3.0 是预期）；判据=采样质量+transfer。第一版脱离 TinyStories，**语言种类质变**（小故事→真实说明文）；transfer→TinyStories val 2.75(v5 native 1.11)，纯通用数据对窄分布有代价；val 末步仍单调降=未饱和 |

 > 实训 token = steps×batch×seq（非数据集大小）。val 同一 1M-token TinyStories 留出集（v0–v5 可比；v6 起换 FineWeb-edu 留出集，分布不同、不可比）。

@@ -49,7 +49,9 @@
 - **算法**：手写 autograd(tape)+扇出累加 → AdamW/LR-sched/grad-clip → +QK-norm(Qwen3) → batched forward → bf16 混合精度(fp32 master)。
 - **模型架构**：固定 Qwen3-style；dim **32→256→384→512→768**；核心参数 **41K→127M**（总 3.26M→205M）。
 - **Infra**：单卡 fp32 → cuBLAS/GPU-optim(T7) → NCCL DDP(T8) → batched forward(T10) → caching allocator(T11) → bf16(T12)。吞吐 **3.3K→217K tok/s**，MFU **0.4%→17%**（每次提升都对应一块 perf 基建，详见 known-issues + MFU 分析）。
- **数据集**：TinyStories 3MB 切片 → 全量 TinyStories（epoch 0.01→5.33，至饱和）→ **FineWeb-edu** 真实网页。tokenizer 全程 gpt2 BPE（复用 xserv-tokenizer）。
+- **数据集**：TinyStories 3MB 切片 → 全量 TinyStories（epoch 0.01→5.33，**至饱和**）→ **v6 毕业到 FineWeb-edu 真实网页**（2.255B 语料，1.02ep）。tokenizer 全程 gpt2 BPE（复用 xserv-tokenizer；v6 刻意不换 tokenizer 以隔离「数据来源」变量，KI-4 留后续版本）。
+  - **v5→v6 数据轴的质变**：v0–v5 都吃合成幼儿故事（TinyStories，低熵、词汇受控），v5 证明同尺寸模型在它上面已饱和；v6 第一版换成**真实教育类网页文本**（FineWeb-edu），语言种类发生质变——采样从「只会写小故事」变成「能写历史/科学/说明文」。
+  - ⚠️ **val 不可比**：v0–v5 的 val 是同一 TinyStories 1M 留出集（彼此可比）；**v6 起换 FineWeb-edu 留出集，分布不同、val（3.07）不能和 v0–v5（~1.1）比大小**——真实网页熵高，~3.0 是预期而非回退。v6 的判据是采样质量 + **transfer eval**（v6→TinyStories val 2.75 vs v5 native 1.11，量化「纯通用数据对窄分布的代价」）。

 ## 四、perf 杠杆台账（详见 [known-issues.md](known-issues.md)）

--- a/docs/runs/06-v6-fineweb-edu-dim768.md
+++ b/docs/runs/06-v6-fineweb-edu-dim768.md
@@ -0,0 +1,204 @@
+# Scaling Run v6: 脱离 TinyStories — 纯 FineWeb-edu 真实网页文本 + dim768/18L(同 v4/v5) + 8 卡 DDP bf16 — Design Document
+
+## Goal
+
+v5 给了一个干净的结论：**dim768/127M-core 在 TinyStories 上已近数据饱和**（同 arch 数据 ×3.5 仅
+val ↓5%、末段走平）。v5 末尾的判断是「瓶颈在**语料**而非容量」——再榨 TinyStories 的 epoch 收益薄，
+真正的杠杆是**换更广、更真的语料**。
+
+v6 就是兑现这条判断的第一步：**第一版彻底脱离 TinyStories，换成纯 FineWeb-edu**（真实教育类网页文本）。
+
+1. **架构完全冻结 = v4/v5**（dim 768 / 24 heads × 32 head_dim / 18 layers / SwiGLU ffn 2048，
+   core 127.43M，总 204.63M）。**一个权重维度都不改**——和 v5「只动数据量」一样，v6「只动数据来源」，
+   把「TinyStories → FineWeb-edu」做成唯一被测变量。
+2. **数据从玩具语料毕业到真实网页**：v0–v5 都吃 TinyStories（GPT 合成的、词汇受控的幼儿小故事）；
+   v6 换成 FineWeb-edu（`sample/10BT` 子集，2.255B-token 真实教育类网页文本）。这不是为了「更低的 val」，
+   而是为了**让模型见到真实世界的语言分布**（历史/科学/技术/说明文），测「更丰富的数据 → 更丰富的语言」。
+3. **bf16 + 8 卡 global 256（同 v5 的甜点区）**：复用 T12 的 bf16 混合精度（fp32 master），稳态
+   ~218K tok/s，~1.9h 训完 2.29B token（~1.02 epoch）。
+
+> ### ⚠️ 方法论说明（本版最重要的一条）
+>
+> **v6 的 val loss（FineWeb-edu 3.0652）和 v0–v5 的 val loss（TinyStories ~1.1）不在同一把尺子上，
+> 不能直接比大小。** TinyStories 是合成的、词汇与句法都受控的幼儿故事，**熵很低**——一个学得好的模型
+> 能把 val 压到 ~1.1。FineWeb-edu 是真实网页文本，主题、词汇、句式无穷无尽，**熵本就高出一大截**，
+> 同尺寸模型在它上面的 val 落在 ~3.0 是**完全预期的，不是回退**。
+>
+> 所以 **v6 不该用「val 3.07 比 v5 的 1.11 差」来读**。本版的真正判据是两条：
+> **(a) 通用提示词下的采样质量**（v6 是否能写出连贯的真实英文，而不是掉进小故事）；
+> **(b) transfer eval**（v6 在 TinyStories 留出集上的表现，量化「换通用数据」对原分布的代价）。
+
+## 数据（v6 的真正变化点）
+
+| 项 | v5 | v6 |
+|----|----|----|
+| 来源 | TinyStories 全量 train（合成幼儿故事）| **FineWeb-edu**（HuggingFaceFW/fineweb-edu, `sample/10BT`，真实教育类网页）|
+| 语料规模 | 468.26M tokens | **2,254,904,418 tokens**（3 个 parquet 分片）|
+| **训练消费 token** | ~2.49B（38000 步）| **~2.29B**（35000 步 × global 256 × seq 256）|
+| epoch 占比 | ~5.33 | **~1.02** |
+| tokenizer | gpt2 BPE（vocab 50257）| **同（刻意不换，隔离数据变量）** |
+| 缓存 | `data/tinystories-train.txt.u16.bin` | `data/fineweb-edu.txt.u16.bin`（4.51GB u16）|
+| held-out val | TinyStories 末尾 1M token | **FineWeb-edu 末尾 1M token（与 v0–v5 不可比，分布不同）** |
+
+**新数据管线**（`scripts/fineweb_to_txt.py`）：从 FineWeb-edu 的 parquet 分片**按 row-group 流式**抽
+`text` 列，每篇文档后接一个 `<|endoftext|>`（gpt2 id 50256，Corpus 的文档边界），写成一个 UTF-8 `.txt`；
+再走 `Corpus::load_cached` 的 gpt2 BPE 一次性 tokenize → `.u16.bin` 缓存（免重复 BPE）。整条管线**只新增
+这一个脚本**，Corpus / tokenizer / 训练器全部复用 v0–v5 的既有代码——这正是「只动数据来源」的工程边界。
+（冗余的 10.45GB `.txt` 训完即删，可由脚本 + parquet 重新生成；4.51GB 的 `.u16.bin` 缓存留在 dash5。）
+
+**tokenizer 刻意不换**：gpt2 BPE 对真实网页未必是最优词表（KI-4「大词表小 vocab」仍在台账上），但 v6
+若同时换 tokenizer，val 的变化就无法干净归因到「数据来源」。**保 gpt2 → 隔离数据变量**；换 tokenizer 留给
+后续版本单独做。
+
+## 架构
+
+v6 = **与 v4/v5 字节级同构的** tiny Qwen3（RoPE + RMSNorm + per-head QK-norm + SwiGLU + 独立 lm_head，MHA）。
+**刻意一个维度都不改**，让「数据来源」成为唯一被测变量。
+
+| 维度 | v4/v5 | v6 |
+|------|-------|----|
+| dim（= heads·head_dim）| 768 | **768（同）** |
+| n_layers | 18 | **18（同）** |
+| n_heads / head_dim | 24 / 32 | **24 / 32（同）** |
+| ffn_hidden（SwiGLU）| 2048 | 2048（同）|
+| vocab | 50257 | 50257（同）|
+| **core 参数** | 127,432,704（≈127.43M）| **127,432,704（同）** |
+| **总参数** | 204,627,456（≈204.63M）| **204,627,456（同）** |
+
+config.json 与 v4/v5 一字不差（导出的 **201 tensors** 形状完全相同）。
+
+## 训练器：8 卡 DDP bf16（同 v5）
+
+复用 v5 的训练栈，无改动：
+
+- **fp32 master 权重 + AdamW/clip/DDP 全部 fp32**，linears 走 `cublasGemmEx`（16BF / fp32 accum）、激活
+  存 bf16；norm/softmax/rope/CE 仍 fp32。bf16 撑住 per-rank batch 32 / global 256 的甜点区。
+- **8 卡 thread-per-GPU**：all-reduce device 梯度取均值后各 rank 本地 GpuAdamW step，跨 rank 参数
+  bit-identical（T8/T11）。
+- 全程稳态 **~218,000 tok/s**、wall-clock **~1.9h** 训完 2.29B token。
+
+## 超参
+
+| 项 | 值 | 备注 |
+|----|----|----|
+| optimizer | 手写 AdamW（GPU 端 step）| wd=0.1，β/eps 用 xtrain-optim 默认 |
+| LR schedule | 线性 warmup → cosine decay | max_lr **6e-4** → min_lr **6e-5**（同 v1–v5）|
+| warmup | ~1750 步（steps/20）| lr 在 ~step 1750 达峰 6e-4，cosine 衰减到末步 6e-5 |
+| grad clip | global-norm 1.0 | warmup 后 gnorm ~0.4 起平稳 |
+| steps | **35000** | ~1.9h @ 8 卡 |
+| global batch | **256**（per-rank 32 × world 8）| bf16 甜点区（同 v5）|
+| seq_len | **256** | 同 v2–v5 |
+| tokens/step | 256×256 = 65536 | 总训练 token ≈ **2.29B**（~1.02 epoch）|
+| world size | **8**（RTX 5090，sm_120）| |
+| 精度 | **bf16 混合精度**（fp32 master）| T12/KI-2；导出 xserv 同样 BF16 |
+
+## 结果
+
+- **train loss**：start **11.0273** → end **3.1442**（全程平滑下降）
+- **best / final val loss（FineWeb-edu held-out 1M token，step 34999）**：**3.0652**
+- FineWeb val 曲线（抽样，**单调下降无走平** —— 与 v5 末段抖动相反）：
+
+| step | 499 | 1999 | 3999 | 5999 | 7999 | 9999 | 13999 | 17999 | 21999 | 25999 | 29999 | 33999 | **34999** |
+|------|-----|------|------|------|------|------|-------|-------|-------|-------|-------|-------|-------|
+| val  | 5.6987 | 4.0900 | 3.6906 | 3.5501 | 3.4681 | 3.4057 | 3.3089 | 3.2383 | 3.1779 | 3.1268 | 3.0907 | 3.0683 | **3.0652** |
+
+**注意曲线形状**：v6 的 FineWeb val **到末步仍在单调降**（3.0683 → 3.0652，无 v5 那种 ~0.004 带内抖动）。
+对真实网页这本「信息量大得多」的语料，1.02 epoch / 2.29B token **远未触到数据天花板**——继续训（更多
+epoch 或更大模型）val 还有明显下降空间。这与 v5 在 TinyStories 上 5.33 epoch 走平形成鲜明对照：**换了语料，
+天花板被抬高了。**
+
+### ⚠️ 为什么 3.07 不能和 v5 的 1.11 比
+
+| | v5 | v6 |
+|---|---|---|
+| val 语料 | TinyStories（合成幼儿故事，低熵）| FineWeb-edu（真实网页，高熵）|
+| best val | **1.1102** | **3.0652** |
+| 可比性 | ← **不可比** → | 两套 held-out 来自完全不同的分布 |
+
+**3.07 > 1.11 ≠ v6 比 v5 差。** 一本词汇受控、句式套路化的幼儿故事集，本来就能被压到很低的 val；真实网页
+文本的内在熵高出一截，同尺寸模型落在 ~3.0 是**预期值**。判 v6 的好坏，看下面两节（采样质量 + transfer），
+不看这个不可比的数字。
+
+## Transfer eval — v6 在 TinyStories 留出集上
+
+把 v6 的 ckpt 拿到**与 v5 完全相同的 TinyStories 1M 留出集**上跑 `--eval-ckpt`（bf16），量化「纯通用数据
+训练」对 TinyStories 原分布的代价：
+
+| 模型 | TinyStories 1M val | 说明 |
+|------|--------------------|------|
+| v5（native TinyStories）| **1.1102** | 直接在 TinyStories 上训出来的 |
+| **v6（FineWeb-edu）→ TinyStories** | **2.7546** | 从没见过 TinyStories，纯 transfer |
+
+**v6 在 TinyStories 上 2.75，比 v5 的 1.11 高 +1.64 nats。** 这是预期的、也是有意义的：v6 **从未训练过
+TinyStories**，它把容量花在了真实网页分布上，对「the little girl named Lily」这种高度套路化的幼儿故事
+反而生疏了。换句话说，**纯通用数据训练对窄分布（TinyStories）有明确代价**——v6 用 TinyStories 专有的
+流畅度，换来了通用网页文本的能力。这正是「换轴」该有的样子：不是免费午餐，是一次有方向的权衡。
+
+> 这条 transfer 也回答了一个隐含问题：v6 的 2.75 远好于一个随机模型（~11），说明 FineWeb-edu 学到的
+> 通用语言能力**确实迁移到了** TinyStories（英语语法、常见词、叙事结构都通用），只是没有 v5 那种针对性。
+
+## 采样对比 —— v5(TinyStories) vs v6(FineWeb-edu)，同通用提示词
+
+两个模型**同 arch、同 xserv 服务、同贪心、同 prompt**，唯一差别是训练语料。喂**通用/说明文**提示词
+（不是 "Once upon a time"），看语言走向：
+
+| prompt | **v5（TinyStories）** | **v6（FineWeb-edu）** |
+|--------|----------------------|------------------------|
+| `The history of` | the castle was very interesting… **The little girl was so excited to explore the castle.** She ran around… | the United States is **a fascinating one. It is a country that has been shaped by the experiences of its people. From the founding of the United States to the present day…** |
+| `In science,` | **the little girl learned about different kinds of plants and animals.** She was so excited to learn more. | the term science is used to refer to the study of the physical world. **Science is a broad field that encompasses biology, chemistry, physics, and engineering.** |
+| `The most important` | thing was that **the little girl was safe.** She was so happy that she had been able to help the bird. `<\|endoftext\|>` | thing is to have a good understanding of **the different types of data and how they are used… it can help you make decisions about your business.** |
+| `The United States` | of the world was a very special place. **Everyone was happy and they all looked forward to the future.** `<\|endoftext\|>` | has a long history… **the process of assimilation** (轻微史实幻觉，但语域是历史说明文)|
+| `Water is` | **not good for you… Lily and Ben nodded. They drank water and felt better. They learned their lesson.** | a natural resource that is used to produce energy. **It is a renewable resource that can be used to generate electricity.** |
+
+**结论很直接**：
+
+- **v5 无法脱离小故事模式**。每一个通用提示词都被它掰回 TinyStories 叙事——"the little girl"、"Lily and
+  Ben"、"learned their lesson"、`<|endoftext|>` 收尾。它**只会**写幼儿故事，因为它**只见过**幼儿故事。
+- **v6 写出真实说明文英文**——历史、科学学科、数据/商业决策、可再生资源。语域明确是**教育类网页文本**，
+  正是 FineWeb-edu 的分布。小模型仍有重复倾向（greedy 尤甚，如 "decisions about your business" 重复一次），
+  也有轻微史实幻觉（"Rockefeller coined Americanization"），但**语言的种类和广度**是 v5 完全没有的。
+
+这就是 v6 这版要回答的问题的答案：**更丰富、更真实的语料 → 更丰富、更通用的语言**。代价是窄分布上的
+专有流畅度（transfer 2.75 已量化），收益是从「只会一种文体」到「能写真实世界的说明文」。
+
+## xserv 验证
+
+导出 HF Qwen3 safetensors（命名映射 + 2D 权重转置 [in,out]→[out,in] + BF16，见 T9 `docs/08`，
+**201 tensors**，config.json 与 v4/v5 一字不差）存入 registry，用 `xserv-cli` 加载并贪心生成：
+
+```
+$ xserv-cli ~/projects/tiny-models/v6-fineweb-edu-dim768 --max-tokens 50
+Model: qwen3, layers=18, hidden=768, heads=24/24 kv, vocab=50257
+Loaded 201 tensors
+Ready (KV cache, dtype=bf16).
+xserv> The history of the United States is a fascinating one. It is a country that has been shaped by
+       the experiences of its people. From the founding of the United States to the present day, there
+       are many stories that have shaped the country.
+xserv> In science, the term science is used to refer to the study of the physical world. Science is a
+       broad field that encompasses a wide range of disciplines, including biology, chemistry, physics,
+       and engineering.
+xserv> Water is a natural resource that is used to produce energy. It is a renewable resource that can
+       be used to generate electricity.
+```
+
+**token-match**：v6 **训练即 bf16**（fp32 master），权重本就在 bf16 数值域里收敛，导出 BF16 给 xserv 后
+两侧数值路径一致——同 v4/v5 的闭环（v5 是 3/3 逐 token 一致）。xserv 加载 qwen3 layers=18 hidden=768
+201 tensors、KV-cache、贪心生成，闭环成立。
+
+## 相比 v5 与 v7 提案
+
+v5 给出**数据天花板**结论（TinyStories 在 dim768 饱和），v6 兑现了「换轴：广化语料」这条路——结果是
+**语言种类的质变**（小故事 → 真实说明文），且 FineWeb val 到末步仍单调降 = **新语料下天花板被抬高、
+1.02 epoch 远未触顶**。v7 的杠杆按收益排序：
+
+1. **更多/更好数据（首选）**：v6 才训 1.02 epoch、val 还在单调降——**同 arch 多喂 FineWeb-edu**（2–3 epoch
+   或加更多 10BT 分片）几乎肯定继续降 val，是当前最便宜、最确定的收益。
+2. **数据混合（次选，治 transfer 退化）**：v6 暴露了「纯通用数据伤窄分布」（TinyStories transfer 1.11→2.75）。
+   若想同时要**连贯性 + 广度**，可上 **TinyStories + FineWeb-edu 混合**语料——但这是为「不退化」服务，不是
+   为「更低通用 val」服务，优先级看目标。
+3. **更大模型（dim1024+，要 KI-3）**：v6 证明真实语料的信息量对 127M-core 还有富余（val 未饱和）→ 更大模型
+   能从同语料榨更多。但 dim1024+ 激活显存上升，需先做 **KI-3 激活重计算**（T12 已列为 bf16 之后的下一个
+   显存杠杆）。代价最高，留到「数据这条便宜杠杆榨干后」再上。
+
+**我的判断：v7 先走 1（更多 FineWeb-edu epoch）**——v6 的曲线明确告诉我们「这本语料还没喂够」，在动模型
+尺寸（贵、要 KI-3）之前，先把已经铺好的数据轴吃满是性价比最高的下一步。
--- a/docs/runs/README.md
+++ b/docs/runs/README.md
@@ -18,6 +18,11 @@ val loss 一栏给的是各版**各自训练 run 报告的 best val**（held-out
 **tokens / epoch 两列让数据饱和可见**：v4→v5 同 arch、数据 ×3.5（1.54→5.33 epoch），val 仅 ↓0.06（~5%）
 且末段走平 ⇒ TinyStories 在 dim768 已近**数据天花板**（详见 [05-v5](05-v5-tinystories-dim768.md)）。

+⚠️ **v6 起换了保留集（语料）**：v0–v5 的 val 都是 **TinyStories** 1M 留出集（彼此可比）；v6 换成纯
+**FineWeb-edu**（真实网页文本），它的 val（3.07）是**另一把尺子上的另一个分布**，**不能**和 v0–v5 的
+~1.1 比大小——真实网页熵高，~3.0 是预期值不是回退。v6 的判据是采样质量 + transfer eval（见
+[06-v6](06-v6-fineweb-edu-dim768.md)）。下表 v6 行的 val 单独标注分布。
+
 | 版本 | 数据 | 训练 token | epoch | 架构 (dim/L/heads·hd/ffn) | core 参数 | 总参数 | val loss | 备注 |
 |---|---|---|---|---|---|---|---|---|
 | [v0-baseline](../../docs/05-training-loop.md) | TinyStories valid 3MB 切片 (~72 万 tok) | ~0.72M | — | 32 / 4 / 2·16 / 64 | ~41K | 3.26M | **3.8050** | 太小不可用；采样陷入 "mommy's mommy's mommy" 循环 |
@@ -26,12 +31,14 @@ val loss 一栏给的是各版**各自训练 run 报告的 best val**（held-out
 | [v3-tinystories-dim512](03-v3-tinystories-dim512.md) | TinyStories 全量 (复用 v1 缓存) | ~245.8M | ~0.53 | 512 / 16 / 16·32 / 2048 | 67.13M | 118.59M | **1.3027** | dim512/16L + **单卡 batched (T10)**；val 比 v2 低 0.40，带动机/转折的连续叙事；~2.65h/单卡 ~26K tok/s。T10 修 KI-1 根因(launch-bound)，单卡避开 KI-5 |
 | [v4-tinystories-dim768](04-v4-tinystories-dim768.md) | TinyStories 全量 (复用 v1 缓存) | ~720.9M | ~1.54 | 768 / 18 / 24·32 / 2048 | 127.43M | 204.63M | **1.1690** | dim768/18L + **8 卡 DDP fp32**；val 比 v3 低 0.13，细节更具体、结构更完整；~84min/8 卡 ~145K tok/s。验证 T11 缓存分配器在 dim768 多卡扩展；⚠️ fp32 per-rank batch 32 OOM = bf16(KI-2) 触发点 |
 | [v5-tinystories-dim768](05-v5-tinystories-dim768.md) | TinyStories 全量 (复用 v1 缓存) | **~2.49B** | **~5.33** | 768 / 18 / 24·32 / 2048 (**同 v4**) | 127.43M | 204.63M | **1.1102** | **架构同 v4**，唯一变量=数据量 + **8 卡 DDP bf16**(global 256)；~3.2h/8 卡 ~217K tok/s。⚠️ **数据天花板**：数据 ×3.5 仅 val ↓0.06(~5%) 且末段走平 ⇒ TinyStories 在 dim768 近饱和，v6 该换轴(更大模型/更广语料) |
+| [v6-fineweb-edu-dim768](06-v6-fineweb-edu-dim768.md) | **FineWeb-edu** 真实网页 (2.255B 语料) | ~2.29B | ~1.02 | 768 / 18 / 24·32 / 2048 (**同 v4/v5**) | 127.43M | 204.63M | **3.0652** ⚠️*(FineWeb val,与上不可比)* | **第一版脱离 TinyStories**，唯一变量=数据来源 + 8 卡 DDP bf16；~1.9h/8 卡 ~218K tok/s。**val 是另一分布**(真实网页熵高,~3.0 是预期非回退)，判据=采样质量+transfer。FineWeb val 末步仍单调降=未饱和；**transfer**: v6→TinyStories val **2.75**(v5 native 1.11)，纯通用数据对窄分布有代价。采样: v6 写真实说明文 vs v5 一律掉进小故事 |

 ## 下一档（提案）

- **v6**（待派发）：v5 给出**数据天花板**结论（同 arch 数据 ×3.5 仅 val ↓5% 且末段走平，TinyStories 在
-  dim768 已近饱和）——v6 该**换轴**，见 `05-v5-*.md` 末尾 "v6 提案"。两条候选：**A 更大模型（dim1024+，
-  容量上限尚未触顶；dim 越大 KI-4 占比越摊薄）** vs **B 更广语料（FineWeb-edu 等 + 可能换 tokenizer KI-4，
-  抬高语料信息上限）**。判断 **B 解锁空间更大**（v5 的瓶颈是语料而非容量，只放大模型很快又撞 TinyStories 信息上限）；
-  理想 A+B 同时。**KI-3（激活重计算）仅在 v6 走 A（dim1024+）时才需要**，与放大模型路线绑定。
+- **v7**（待派发）：v6 兑现了 v5「换轴广化语料」的判断——纯 FineWeb-edu 带来**语言种类的质变**（小故事→真实
+  说明文），且 FineWeb val 才训 1.02 epoch、到末步**仍单调降**=新语料下远未饱和。v7 杠杆按收益排序：
+  **1. 更多/更好 FineWeb-edu（首选，最便宜最确定：同 arch 多喂 2–3 epoch / 加分片，val 几乎必继续降）**；
+  **2. 数据混合（TinyStories+FineWeb，治 v6 暴露的 transfer 退化 1.11→2.75，为「连贯+广度」服务）**；
+  **3. 更大模型（dim1024+，要先做 KI-3 激活重计算，代价最高，留到数据轴榨干后）**。判断 **先走 1**——
+  v6 曲线明确说「这本语料还没喂够」，动模型尺寸前先吃满数据轴性价比最高。详见 `06-v6-*.md` 末尾 "v7 提案"。
 </content>