Files

Gahow Wang 264660527f docs: run v1 — TinyStories full, dim256

docs/runs/01-v1-tinystories-dim256.md + docs/runs/README.md comparison table.
v1: full TinyStories train (468.3M tok, u16-cached) + dim256/8L (core 8.39M).
Same-held-out-set val loss v0 3.8050 → v1 2.5847 (−1.22); v1 samples coherent
stories vs v0's "mommy's mommy's mommy" loop; exports + serves token-identical
in xserv. Single RTX 5090, ~25.9 min, ~3310 tok/s.

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-15 19:09:46 +08:00

01-v1-tinystories-dim256.md

docs: run v1 — TinyStories full, dim256

2026-06-15 19:09:46 +08:00

README.md

docs: run v1 — TinyStories full, dim256

2026-06-15 19:09:46 +08:00

README.md

Scaling Runs

xtrain 的 scaling 阶段：在 v0-baseline 之上逐版放大数据 + 参数，每版一份 docs/runs/NN-<version>.md 设计文档（数据来源 / 架构 + 参数 / 超参 / 结果 val-loss + 采样 / 相比上一版的提升），训练完存入 dash5 模型 registry（~/projects/tiny-models/<version>/）并导出 xserv 格式验证可服务。

模型核心参数（core params）= Config::core_params() = 总参数减去两张 vocab×dim 表（token embedding + lm_head）。gpt2 vocab=50257 使这两张表固定占 ~25.7M（dim256 时），它不反映模型容量，所以阶梯按 core 来量。

对比表

val loss 一栏给的是同一 held-out 1M token（v1 train 末尾切片）上、用 bin/train --eval-ckpt 对两个 checkpoint 各自评出来的——同一指标、公平对比。

版本	数据	架构 (dim/L/heads·hd/ffn)	core 参数	总参数	val loss	备注
v0-baseline	TinyStories valid 3MB 切片 (~72 万 tok)	32 / 4 / 2·16 / 64	~41K	3.26M	3.8050	太小不可用；采样陷入 "mommy's mommy's mommy" 循环
v1-tinystories-dim256	TinyStories 全量 train (468.3M tok, u16 缓存)	256 / 8 / 8·32 / 1024	8.39M	34.13M	2.5847	全量数据 + dim256/8L；val 低 1.22，采样连贯成篇；~25.9min/单卡

下一档（提案）

v2（待派发）：见 01-v1-*.md 末尾 "v2 提案"。

README.md Unescape Escape

Scaling Runs

对比表

下一档（提案）

README.md