xserv

Go to file

Gahow Wang d8493bd70f phase 12: implement real continuous batching scheduler

Rewrote engine.rs from scratch:
- Scheduler loop: admit → prefill → decode → finish → check new requests
- Multiple sequences run concurrently (max_batch_size configurable)
- Each sequence has independent GpuKVCache
- Non-blocking try_recv() for new requests during decode iterations
- Dynamic join: new requests enter batch immediately, don't wait for others

Verified with concurrent test (tools/test_concurrent.py):
- 3 concurrent requests: wall_time=3.8s, concurrency_ratio=2.82x ✓
- 5 concurrent requests: wall_time=6.1s, concurrency_ratio=4.04x ✓
- All outputs are coherent and correct

Design doc (docs/12-continuous-batching.md) fully rewritten with:
- Detailed scheduler loop pseudocode
- Data structures (Sequence, Scheduler)
- Acceptance criteria with specific test cases
- Clear separation from Phase 13 (HTTP layer)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-05-22 13:44:26 +08:00

crates

phase 12: implement real continuous batching scheduler

2026-05-22 13:44:26 +08:00

csrc

perf: GPU transpose/reshape/repeat_kv kernels (eliminate CPU round-trips)

2026-05-22 12:01:07 +08:00

docs

phase 12: implement real continuous batching scheduler

2026-05-22 13:44:26 +08:00

tools

phase 12: implement real continuous batching scheduler