Files

Gahow Wang 579365f4a0 docs: run v5 — TinyStories saturation at dim768 (val 1.11)

设计文档 05-v5-tinystories-dim768.md（中文，xserv 风格）：数据 2.49B tok/5.33ep、
架构同 v4(净测数据变量)、bf16 8 卡 global 256、train 11.07→1.06 best val 1.1102。
核心发现「数据天花板」：v4(1.54ep)1.169→v5(5.33ep)1.110 仅 ↓5% 且末段 val 走平
⇒ TinyStories 在 dim768/127M-core 近饱和，v6 该换轴（更大模型/更广语料，非更多 TinyStories）。
xserv BF16 服务 3/3 prompt 逐 token 一致。

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-16 17:56:25 +08:00

01-v1-tinystories-dim256.md

docs: run v1 — TinyStories full, dim256

2026-06-15 19:09:46 +08:00

02-v2-tinystories-dim384.md

docs: run v2 — TinyStories, dim384/12L, DDP 4-card (val 1.71)

2026-06-15 22:38:31 +08:00

03-v3-tinystories-dim512.md

docs: run v3 — TinyStories, dim512, val 1.30

2026-06-16 03:37:45 +08:00

04-v4-tinystories-dim768.md

docs: run v4 — TinyStories, dim768, val 1.17

2026-06-16 13:14:37 +08:00

05-v5-tinystories-dim768.md

docs: run v5 — TinyStories saturation at dim768 (val 1.11)

2026-06-16 17:56:25 +08:00

README.md

run: v5 archive + export (dim768, bf16, 5.33ep, val 1.11)

2026-06-16 17:56:25 +08:00

README.md

Scaling Runs

xtrain 的 scaling 阶段：在 v0-baseline 之上逐版放大数据 + 参数，每版一份 docs/runs/NN-<version>.md 设计文档（数据来源 / 架构 + 参数 / 超参 / 结果 val-loss + 采样 / 相比上一版的提升），训练完存入 dash5 模型 registry（~/projects/tiny-models/<version>/）并导出 xserv 格式验证可服务。

模型核心参数（core params）= Config::core_params() = 总参数减去两张 vocab×dim 表（token embedding + lm_head）。gpt2 vocab=50257 使这两张表固定占 ~25.7M（dim256 时），它不反映模型容量，所以阶梯按 core 来量。

对比表

val loss 一栏给的是各版各自训练 run 报告的 best val（held-out 1M token，全量 train 末尾切片）。注：v0/v1 训练用 seq128、v2 用 seq256，eval 窗口不同 → 同一保留集 + 同一 eval 设置（seq256/64batch）重评 v1=2.6756→v2=2.0418（低 0.634，apples-to-apples）；下表 best-val 同向。

tokens / epoch 两列让数据饱和可见：v4→v5 同 arch、数据 ×3.5（1.54→5.33 epoch），val 仅 ↓0.06（~5%）且末段走平 ⇒ TinyStories 在 dim768 已近数据天花板（详见 05-v5）。

版本	数据	训练 token	epoch	架构 (dim/L/heads·hd/ffn)	core 参数	总参数	val loss	备注
v0-baseline	TinyStories valid 3MB 切片 (~72 万 tok)	~0.72M	—	32 / 4 / 2·16 / 64	~41K	3.26M	3.8050	太小不可用；采样陷入 "mommy's mommy's mommy" 循环
v1-tinystories-dim256	TinyStories 全量 train (468.3M tok, u16 缓存)	~5.1M	—	256 / 8 / 8·32 / 1024	8.39M	34.13M	2.5847	全量数据 + dim256/8L；val 低 1.22，采样连贯成篇；~25.9min/单卡
v2-tinystories-dim384	TinyStories 全量 (复用 v1 缓存)	~36.9M	—	384 / 12 / 12·32 / 1536	28.32M	66.92M	1.7055	dim384/12L + DDP 4 卡；val 比 v1 低 0.88，情节更长；~2.8h/4 卡。⚠️ DDP 弱扩展见 KI-1
v3-tinystories-dim512	TinyStories 全量 (复用 v1 缓存)	~245.8M	~0.53	512 / 16 / 16·32 / 2048	67.13M	118.59M	1.3027	dim512/16L + 单卡 batched (T10)；val 比 v2 低 0.40，带动机/转折的连续叙事；~2.65h/单卡 ~26K tok/s。T10 修 KI-1 根因(launch-bound)，单卡避开 KI-5
v4-tinystories-dim768	TinyStories 全量 (复用 v1 缓存)	~720.9M	~1.54	768 / 18 / 24·32 / 2048	127.43M	204.63M	1.1690	dim768/18L + 8 卡 DDP fp32；val 比 v3 低 0.13，细节更具体、结构更完整；~84min/8 卡 ~145K tok/s。验证 T11 缓存分配器在 dim768 多卡扩展；⚠️ fp32 per-rank batch 32 OOM = bf16(KI-2) 触发点
v5-tinystories-dim768	TinyStories 全量 (复用 v1 缓存)	~2.49B	~5.33	768 / 18 / 24·32 / 2048 (同 v4)	127.43M	204.63M	1.1102	架构同 v4，唯一变量=数据量 + 8 卡 DDP bf16(global 256)；~3.2h/8 卡 ~217K tok/s。⚠️ 数据天花板：数据 ×3.5 仅 val ↓0.06(~5%) 且末段走平 ⇒ TinyStories 在 dim768 近饱和，v6 该换轴(更大模型/更广语料)

下一档（提案）

v6（待派发）：v5 给出数据天花板结论（同 arch 数据 ×3.5 仅 val ↓5% 且末段走平，TinyStories 在 dim768 已近饱和）——v6 该换轴，见 05-v5-*.md 末尾 "v6 提案"。两条候选：A 更大模型（dim1024+，容量上限尚未触顶；dim 越大 KI-4 占比越摊薄） vs B 更广语料（FineWeb-edu 等 + 可能换 tokenizer KI-4，抬高语料信息上限）。判断 B 解锁空间更大（v5 的瓶颈是语料而非容量，只放大模型很快又撞 TinyStories 信息上限）；理想 A+B 同时。KI-3（激活重计算）仅在 v6 走 A（dim1024+）时才需要，与放大模型路线绑定。

README.md Unescape Escape

Scaling Runs

对比表

下一档（提案）

README.md