xtrain

Files

Gahow Wang d217f4fbd3 perf: spread flash bwd dK/dV atomics across all threads

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-17 23:27:33 +08:00

attention.cu

2026-06-16 00:44:15 +08:00

cast.cu

2026-06-16 14:14:39 +08:00

elementwise.cu

2026-06-15 15:13:06 +08:00

flash_attention.cu

2026-06-17 23:27:33 +08:00

gemm.cu

2026-06-15 15:26:51 +08:00

model.cu

2026-06-16 00:44:15 +08:00

nn.cu

2026-06-16 00:44:15 +08:00

optim.cu

2026-06-15 16:53:09 +08:00