xserv

Files

Gahow Wang da043554ba phase 12+13: HTTP API server with OpenAI-compatible endpoint (Milestone ③)

New crate: xserv-server
- Engine thread: loads Qwen3-8B, processes requests sequentially
- axum HTTP server: /health, /v1/models, /v1/chat/completions
- tokio::sync::mpsc channel between API and engine threads
- Non-streaming JSON response (streaming SSE to be added later)

API is OpenAI-compatible:
  POST /v1/chat/completions {"messages": [...], "max_tokens": N}
  → {"choices": [{"message": {"content": "..."}}]}

Verified: "Hi" → ", I'm" (3 tokens), model runs correctly via HTTP.

Key learnings:
- std::sync::mpsc::SyncSender is Send but NOT Sync → wrap in Mutex for Arc<AppState>
- MutexGuard must not live across await points (scope carefully)
- axum 0.8 Extension<Arc<T>> requires T: Send + Sync

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-05-22 12:55:19 +08:00

xserv-cuda

phase 11: GPU-resident KV cache

2026-05-22 11:50:12 +08:00

xserv-kernels

perf: GPU transpose/reshape/repeat_kv kernels (eliminate CPU round-trips)

2026-05-22 12:01:07 +08:00

xserv-model

perf: GPU transpose/reshape/repeat_kv kernels (eliminate CPU round-trips)

2026-05-22 12:01:07 +08:00

xserv-server

phase 12+13: HTTP API server with OpenAI-compatible endpoint (Milestone ③)

2026-05-22 12:55:19 +08:00

xserv-tensor

phase 11: GPU-resident KV cache

2026-05-22 11:50:12 +08:00

xserv-tokenizer

phase 10: Qwen3-8B support (Milestone ②)

2026-05-22 00:46:37 +08:00