docs: run v1 — TinyStories full, dim256
docs/runs/01-v1-tinystories-dim256.md + docs/runs/README.md comparison table. v1: full TinyStories train (468.3M tok, u16-cached) + dim256/8L (core 8.39M). Same-held-out-set val loss v0 3.8050 → v1 2.5847 (−1.22); v1 samples coherent stories vs v0's "mommy's mommy's mommy" loop; exports + serves token-identical in xserv. Single RTX 5090, ~25.9 min, ~3310 tok/s. Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
This commit is contained in:
25
docs/runs/README.md
Normal file
25
docs/runs/README.md
Normal file
@@ -0,0 +1,25 @@
|
||||
# Scaling Runs
|
||||
|
||||
xtrain 的 scaling 阶段:在 v0-baseline 之上逐版放大**数据 + 参数**,每版一份
|
||||
`docs/runs/NN-<version>.md` 设计文档(数据来源 / 架构 + 参数 / 超参 / 结果 val-loss + 采样 /
|
||||
相比上一版的提升),训练完存入 dash5 模型 registry(`~/projects/tiny-models/<version>/`)并导出
|
||||
xserv 格式验证可服务。
|
||||
|
||||
模型核心参数(`core params`)= `Config::core_params()` = 总参数减去两张 `vocab×dim` 表
|
||||
(token embedding + lm_head)。gpt2 vocab=50257 使这两张表固定占 ~25.7M(dim256 时),它**不反映
|
||||
模型容量**,所以阶梯按 core 来量。
|
||||
|
||||
## 对比表
|
||||
|
||||
val loss 一栏给的是**同一 held-out 1M token**(v1 train 末尾切片)上、用 `bin/train --eval-ckpt`
|
||||
对两个 checkpoint 各自评出来的——同一指标、公平对比。
|
||||
|
||||
| 版本 | 数据 | 架构 (dim/L/heads·hd/ffn) | core 参数 | 总参数 | val loss | 备注 |
|
||||
|---|---|---|---|---|---|---|
|
||||
| [v0-baseline](../../docs/05-training-loop.md) | TinyStories valid 3MB 切片 (~72 万 tok) | 32 / 4 / 2·16 / 64 | ~41K | 3.26M | **3.8050** | 太小不可用;采样陷入 "mommy's mommy's mommy" 循环 |
|
||||
| [v1-tinystories-dim256](01-v1-tinystories-dim256.md) | TinyStories **全量 train** (468.3M tok, u16 缓存) | 256 / 8 / 8·32 / 1024 | 8.39M | 34.13M | **2.5847** | 全量数据 + dim256/8L;val 低 1.22,采样连贯成篇;~25.9min/单卡 |
|
||||
|
||||
## 下一档(提案)
|
||||
|
||||
- **v2**(待派发):见 `01-v1-*.md` 末尾 "v2 提案"。
|
||||
</content>
|
||||
Reference in New Issue
Block a user