Files
xtrain/docs/runs/README.md
Gahow Wang 264660527f docs: run v1 — TinyStories full, dim256
docs/runs/01-v1-tinystories-dim256.md + docs/runs/README.md comparison table.
v1: full TinyStories train (468.3M tok, u16-cached) + dim256/8L (core 8.39M).
Same-held-out-set val loss v0 3.8050 → v1 2.5847 (−1.22); v1 samples coherent
stories vs v0's "mommy's mommy's mommy" loop; exports + serves token-identical
in xserv. Single RTX 5090, ~25.9 min, ~3310 tok/s.

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-15 19:09:46 +08:00

1.5 KiB
Raw Blame History

Scaling Runs

xtrain 的 scaling 阶段:在 v0-baseline 之上逐版放大数据 + 参数,每版一份 docs/runs/NN-<version>.md 设计文档(数据来源 / 架构 + 参数 / 超参 / 结果 val-loss + 采样 / 相比上一版的提升),训练完存入 dash5 模型 registry~/projects/tiny-models/<version>/)并导出 xserv 格式验证可服务。

模型核心参数(core params= Config::core_params() = 总参数减去两张 vocab×dimtoken embedding + lm_head。gpt2 vocab=50257 使这两张表固定占 ~25.7Mdim256 时),它不反映 模型容量,所以阶梯按 core 来量。

对比表

val loss 一栏给的是同一 held-out 1M tokenv1 train 末尾切片)上、用 bin/train --eval-ckpt 对两个 checkpoint 各自评出来的——同一指标、公平对比。

版本 数据 架构 (dim/L/heads·hd/ffn) core 参数 总参数 val loss 备注
v0-baseline TinyStories valid 3MB 切片 (~72 万 tok) 32 / 4 / 2·16 / 64 ~41K 3.26M 3.8050 太小不可用;采样陷入 "mommy's mommy's mommy" 循环
v1-tinystories-dim256 TinyStories 全量 train (468.3M tok, u16 缓存) 256 / 8 / 8·32 / 1024 8.39M 34.13M 2.5847 全量数据 + dim256/8Lval 低 1.22,采样连贯成篇;~25.9min/单卡

下一档(提案)

  • v2(待派发):见 01-v1-*.md 末尾 "v2 提案"。