Files

Gahow Wang 511f35d40c docs: run v8 — dim1024 capacity helps (val 2.98)

v8 = capacity-axis A/B: freeze the v6/v7 2.255B FineWeb-edu subset, scale
dim768→dim1024 (core 127M→226M, +78%) via bf16 + T13 activation recompute.
8-GPU DDP, 2.36B tok (1.05 ep), ~129K tok/s (recompute tax), ~5h.

Result (same FineWeb val, v6/v7/v8 comparable): v6 3.0652 / v7 3.0149 /
v8 2.9801. Capacity helps — v8 (1.05ep) beats v6 at the same ~1ep by 0.085
AND beats v7 (smaller model, 1.45ep more old data) by 0.035 ⇒ v6/v7 were
partly capacity-limited, scaling capacity > repeating old data. But the gain
is only ~3% (same magnitude as the data-axis single-step lever), and v8's
val was still descending at the end (not saturated).

Meta-finding: every single-axis lever (data-volume v5/v7, breadth v6,
capacity v8) is now ~3%/lever ⇒ broad diminishing returns; to progress,
scale capacity AND data together (Chinchilla, reproduced at toy scale).

- docs/runs/08-v8-fineweb-edu-dim1024.md: full capacity experiment + v7-vs-v8 samples
- docs/runs/README.md: +v8 row, v9 proposal
- docs/evolution.md: +T13 infra row, +v8 scaling row, capacity-axis & diminishing-returns notes

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-17 15:12:01 +08:00

01-v1-tinystories-dim256.md

docs: run v1 — TinyStories full, dim256

2026-06-15 19:09:46 +08:00

02-v2-tinystories-dim384.md

docs: run v2 — TinyStories, dim384/12L, DDP 4-card (val 1.71)

2026-06-15 22:38:31 +08:00

03-v3-tinystories-dim512.md

docs: run v3 — TinyStories, dim512, val 1.30

2026-06-16 03:37:45 +08:00

04-v4-tinystories-dim768.md

docs: run v4 — TinyStories, dim768, val 1.17

2026-06-16 13:14:37 +08:00

05-v5-tinystories-dim768.md

docs: run v5 — TinyStories saturation at dim768 (val 1.11)

2026-06-16 17:56:25 +08:00

06-v6-fineweb-edu-dim768.md

docs: run v6 — FineWeb-edu graduation (val 3.07, new distribution)

2026-06-16 22:21:43 +08:00

07-v7-fineweb-edu-dim768.md

docs: run v7 — FineWeb subset near-ceiling at dim768 (val 3.01)

2026-06-17 03:55:47 +08:00

08-v8-fineweb-edu-dim1024.md

docs: run v8 — dim1024 capacity helps (val 2.98)

2026-06-17 15:12:01 +08:00

README.md

docs: run v8 — dim1024 capacity helps (val 2.98)

2026-06-17 15:12:01 +08:00

README.md

Scaling Runs

xtrain 的 scaling 阶段：在 v0-baseline 之上逐版放大数据 + 参数，每版一份 docs/runs/NN-<version>.md 设计文档（数据来源 / 架构 + 参数 / 超参 / 结果 val-loss + 采样 / 相比上一版的提升），训练完存入 dash5 模型 registry（~/projects/tiny-models/<version>/）并导出 xserv 格式验证可服务。

模型核心参数（core params）= Config::core_params() = 总参数减去两张 vocab×dim 表（token embedding + lm_head）。gpt2 vocab=50257 使这两张表固定占 ~25.7M（dim256 时），它不反映模型容量，所以阶梯按 core 来量。

对比表

val loss 一栏给的是各版各自训练 run 报告的 best val（held-out 1M token，全量 train 末尾切片）。注：v0/v1 训练用 seq128、v2 用 seq256，eval 窗口不同 → 同一保留集 + 同一 eval 设置（seq256/64batch）重评 v1=2.6756→v2=2.0418（低 0.634，apples-to-apples）；下表 best-val 同向。

tokens / epoch 两列让数据饱和可见：v4→v5 同 arch、数据 ×3.5（1.54→5.33 epoch），val 仅 ↓0.06（~5%）且末段走平 ⇒ TinyStories 在 dim768 已近数据天花板（详见 05-v5）。v6→v7 同样揭示「重复老数据」边际薄：同一 2.255B FineWeb 子集多喂 epoch（1.02→1.45），FineWeb val 仅 ↓0.05 且走平 ⇒ 该子集在 dim768 也近顶（详见 07-v7）。两条都说明：真·增益要新数据（v6 换更广语料才抬了天花板），不是同子集多读几遍。 v8 改测容量轴：同 v6/v7 子集、纯把 dim768→dim1024（core 127M→226M），FineWeb val 3.07/3.01→2.98 ⇒ 容量有用（v6/v7 部分 capacity-limited）；但增益仅 ~3%、val 末步仍在降未饱和 ⇒ 到 v8，数据轴与容量轴的单步杠杆都收敛到 ~3%/lever = 全面边际递减，要双轴一起 scale（Chinchilla，详见 08-v8）。

⚠️ v6 起换了保留集（语料）：v0–v5 的 val 都是 TinyStories 1M 留出集（彼此可比）；v6 换成纯 FineWeb-edu（真实网页文本），它的 val（3.07）是另一把尺子上的另一个分布，不能和 v0–v5 的 ~1.1 比大小——真实网页熵高，~3.0 是预期值不是回退。v6 的判据是采样质量 + transfer eval（见 06-v6）。下表 v6 行的 val 单独标注分布。

版本	数据	训练 token	epoch	架构 (dim/L/heads·hd/ffn)	core 参数	总参数	val loss	备注
v0-baseline	TinyStories valid 3MB 切片 (~72 万 tok)	~0.72M	—	32 / 4 / 2·16 / 64	~41K	3.26M	3.8050	太小不可用；采样陷入 "mommy's mommy's mommy" 循环
v1-tinystories-dim256	TinyStories 全量 train (468.3M tok, u16 缓存)	~5.1M	—	256 / 8 / 8·32 / 1024	8.39M	34.13M	2.5847	全量数据 + dim256/8L；val 低 1.22，采样连贯成篇；~25.9min/单卡
v2-tinystories-dim384	TinyStories 全量 (复用 v1 缓存)	~36.9M	—	384 / 12 / 12·32 / 1536	28.32M	66.92M	1.7055	dim384/12L + DDP 4 卡；val 比 v1 低 0.88，情节更长；~2.8h/4 卡。⚠️ DDP 弱扩展见 KI-1
v3-tinystories-dim512	TinyStories 全量 (复用 v1 缓存)	~245.8M	~0.53	512 / 16 / 16·32 / 2048	67.13M	118.59M	1.3027	dim512/16L + 单卡 batched (T10)；val 比 v2 低 0.40，带动机/转折的连续叙事；~2.65h/单卡 ~26K tok/s。T10 修 KI-1 根因(launch-bound)，单卡避开 KI-5
v4-tinystories-dim768	TinyStories 全量 (复用 v1 缓存)	~720.9M	~1.54	768 / 18 / 24·32 / 2048	127.43M	204.63M	1.1690	dim768/18L + 8 卡 DDP fp32；val 比 v3 低 0.13，细节更具体、结构更完整；~84min/8 卡 ~145K tok/s。验证 T11 缓存分配器在 dim768 多卡扩展；⚠️ fp32 per-rank batch 32 OOM = bf16(KI-2) 触发点
v5-tinystories-dim768	TinyStories 全量 (复用 v1 缓存)	~2.49B	~5.33	768 / 18 / 24·32 / 2048 (同 v4)	127.43M	204.63M	1.1102	架构同 v4，唯一变量=数据量 + 8 卡 DDP bf16(global 256)；~3.2h/8 卡 ~217K tok/s。⚠️ 数据天花板：数据 ×3.5 仅 val ↓0.06(~5%) 且末段走平 ⇒ TinyStories 在 dim768 近饱和，v6 该换轴(更大模型/更广语料)
v6-fineweb-edu-dim768	FineWeb-edu 真实网页 (2.255B 语料)	~2.29B	~1.02	768 / 18 / 24·32 / 2048 (同 v4/v5)	127.43M	204.63M	3.0652 ⚠️(FineWeb val,与上不可比)	第一版脱离 TinyStories，唯一变量=数据来源 + 8 卡 DDP bf16；~1.9h/8 卡 ~218K tok/s。val 是另一分布(真实网页熵高,~3.0 是预期非回退)，判据=采样质量+transfer。FineWeb val 末步仍单调降=未饱和；transfer: v6→TinyStories val 2.75(v5 native 1.11)，纯通用数据对窄分布有代价。采样: v6 写真实说明文 vs v5 一律掉进小故事
v7-fineweb-edu-dim768	同 v6 的 2.255B FineWeb-edu 子集(非新数据)	~3.28B	~1.45	768 / 18 / 24·32 / 2048 (同 v4/v5/v6)	127.43M	204.63M	3.0149 (FineWeb val,与 v6 可比)	唯一变量=epoch 数(1.02→1.45) + 8 卡 DDP bf16；~4.2h/8 卡 ~218K tok/s。⚠️核心发现：同子集多 epoch 近天花板——多喂 ~1B token，val 仅 ↓0.05(3.07→3.01)且 ~step44000 后走平、采样无质变。真"更多数据"要新 FineWeb shards(更多样 token)，非重复同一子集。与 v5 的 TinyStories 数据量饱和同类(重复老数据边际薄)，v6 换语料才是抬天花板的轴
v8-fineweb-edu-dim1024	同 v6/v7 的 2.255B FineWeb-edu 子集(非新数据)	~2.36B	~1.05	1024 / 18 / 32·32 / 2730	226.50M	329.42M	2.9801 (FineWeb val,与 v6/v7 可比)	唯一变量=模型容量(dim768→dim1024, core 127M→226M +78%) + bf16 + 激活重计算(T13) 装下 dim1024；~5h/8 卡 ~129K tok/s(重算税)。⭐核心 A/B：容量有用——同 ~1ep v6 3.07→v8 2.98(↓0.085)，且 v8(1.05ep) < v7(1.45ep 更多老数据) 3.01 ⇒ 放大容量 > 重复老数据 ⇒ v6/v7 部分 capacity-limited。⚠️但增益仅 ~3%(与数据轴单步同量级)，val 末步仍在降未饱和。元结论：单轴(数据/容量)单步都已 ~3%/lever = 全面边际递减，要双轴一起 scale(Chinchilla)

下一档（提案）

v9（待定方向）：到 v8，数据量轴(v5/v7 饱和) / 数据广度轴(v6 一次性红利) / 容量轴(v8 有用但 ~3%) 三根单轴都已测过，且单步杠杆都收敛到 ~3%/lever = 全面边际递减。Chinchilla 教训在小尺度复现：v8 容量 +78% 却只配同样的 2.36B token，val 末步仍在降 ⇒ 数据立刻成新瓶颈 ⇒ 容量与数据要匹配地一起 scale。v9 选项： 1. 双轴一起 scale（最符合 Chinchilla：更大模型 + 新 FineWeb shards，真 scale 但大投入)； 2. dim1024 多喂数据（最便宜：v8 才 1.05ep 未饱和，续训到 2–3ep / 加新 shards，直接验证容量是否被数据卡住)； 3. 自然收尾（8 版 + 从零全栈 + 三轴完整分析 + Chinchilla 边际元结论，学习线已讲完整个故事)。详见 08-v8 末尾 "v9 提案"。

v7 时的提案（已被 v8 兑现，归档）：v7 把首选定为「新 FineWeb shards」，把「更大模型(dim1024+，容量轴，需先做 T13 激活重计算)」列为待测。v8 走了容量轴并证明它有用（但 ~3%），把「是否 capacity-limited」从悬念变成了「部分是」的结论。

README.md Unescape Escape

Scaling Runs

对比表

下一档（提案）

README.md