Add streaming LLM proposal support

2026-04-09 01:06:45 +08:00
parent 46151512cd
commit 96140b79bb
4 changed files with 90 additions and 1 deletions
--- a/src/aituner/http_client.py
+++ b/src/aituner/http_client.py
@@ -181,6 +181,60 @@ def chat_completion(
        raise HttpClientError(f"llm_completion failed: {exc.code} {detail}") from exc
 def stream_text_completion(
    *,
    base_url: str,
    api_key_env: str | None,
    provider: str = "custom",
    wire_api: str = "chat.completions",
    model: str,
    messages: list[dict[str, Any]],
    timeout_s: float,
    system_prompt: str = "",
    reasoning_effort: str | None = None,
 ) -> str:
    if wire_api != "chat.completions":
        raise HttpClientError("stream_text_completion currently supports only chat.completions")
    payload: dict[str, Any] = {
        "model": model,
        "messages": messages,
        "stream": True,
    }
    if system_prompt:
        payload["messages"] = [{"role": "system", "content": system_prompt}, *messages]
    if reasoning_effort:
        payload["reasoning_effort"] = reasoning_effort
    data = json.dumps(payload).encode("utf-8")
    request = urllib.request.Request(
        url=_openai_url(base_url, "/v1/chat/completions"),
        headers=_auth_headers(api_key_env, provider),
        data=data,
        method="POST",
    )
    parts: list[str] = []
    try:
        with _urlopen(request, timeout=timeout_s) as response:
            for raw in _iter_sse_lines(response):
                if raw == "[DONE]":
                    break
                payload = json.loads(raw)
                if not isinstance(payload, dict):
                    continue
                choices = payload.get("choices")
                if not isinstance(choices, list) or not choices:
                    continue
                delta = choices[0].get("delta", {})
                if not isinstance(delta, dict):
                    continue
                content = delta.get("content")
                if isinstance(content, str):
                    parts.append(content)
    except urllib.error.HTTPError as exc:
        detail = exc.read().decode("utf-8", errors="replace")
        raise HttpClientError(f"stream_text_completion failed: {exc.code} {detail}") from exc
    return "".join(parts)
@dataclass(frozen=True)
 class StreamMetrics:
    ttft_ms: float | None
--- a/src/aituner/llm.py
+++ b/src/aituner/llm.py
@@ -4,7 +4,7 @@ import json
 from pathlib import Path
 from typing import Any
-from .http_client import chat_completion
+from .http_client import chat_completion, stream_text_completion
 from .spec import LLMPolicySpec, Proposal, SpecError, StudySpec, StudyState
@@ -229,6 +229,18 @@ def call_llm_for_proposal(
 ) -> str:
    if policy.endpoint is None:
        raise RuntimeError("study.llm.endpoint is not configured")
    if policy.endpoint.stream:
        return stream_text_completion(
            base_url=policy.endpoint.base_url,
            api_key_env=policy.endpoint.api_key_env,
            provider=policy.endpoint.provider,
            wire_api=policy.endpoint.wire_api,
            model=policy.endpoint.model,
            messages=[{"role": "user", "content": prompt}],
            timeout_s=policy.endpoint.timeout_s,
            system_prompt=policy.system_prompt,
            reasoning_effort=policy.endpoint.reasoning_effort,
        )
    response = chat_completion(
        base_url=policy.endpoint.base_url,
        api_key_env=policy.endpoint.api_key_env,
--- a/src/aituner/spec.py
+++ b/src/aituner/spec.py
@@ -36,6 +36,12 @@ def _require_int(value: Any, *, context: str) -> int:
    return value
 def _require_bool(value: Any, *, context: str) -> bool:
    if not isinstance(value, bool):
        raise SpecError(f"{context} must be a boolean.")
    return value
 def _coerce_str_map(value: Any, *, context: str) -> dict[str, str]:
    mapping = _require_mapping(value or {}, context=context)
    return {str(key): str(item) for key, item in mapping.items()}
@@ -393,6 +399,7 @@ class LLMEndpointSpec:
    model: str
    provider: str = "custom"
    wire_api: str = "chat.completions"
    stream: bool = False
    reasoning_effort: str | None = None
    api_key_env: str = "OPENAI_API_KEY"
    timeout_s: float = 120.0
@@ -402,6 +409,7 @@ class LLMEndpointSpec:
        provider = str(data.get("provider") or "custom").strip().lower()
        base_url = str(data.get("base_url") or "").strip()
        wire_api = str(data.get("wire_api") or "").strip()
        stream = data.get("stream")
        reasoning_effort = str(data.get("reasoning_effort") or "").strip()
        api_key_env = str(data.get("api_key_env") or "").strip()
        if provider == "codex":
@@ -438,6 +446,7 @@ class LLMEndpointSpec:
            model=_require_str(data.get("model"), context="llm.endpoint.model"),
            provider=provider,
            wire_api=_require_str(wire_api, context="llm.endpoint.wire_api"),
            stream=(_require_bool(stream, context="llm.endpoint.stream") if stream is not None else False),
            reasoning_effort=reasoning_effort or None,
            api_key_env=_require_str(api_key_env, context="llm.endpoint.api_key_env"),
            timeout_s=_require_float(
--- a/tests/test_core_flow.py
+++ b/tests/test_core_flow.py
@@ -253,9 +253,23 @@ class CoreFlowTests(unittest.TestCase):
            self.assertEqual(endpoint.provider, "codex")
            self.assertEqual(endpoint.base_url, "http://codex.example/v1")
            self.assertEqual(endpoint.wire_api, "responses")
            self.assertFalse(endpoint.stream)
            self.assertEqual(endpoint.reasoning_effort, "high")
            self.assertEqual(endpoint.api_key_env, "OPENAI_API_KEY")
    def test_endpoint_stream_flag(self) -> None:
        endpoint = LLMEndpointSpec.from_dict(
            {
                "provider": "custom",
                "base_url": "http://example/v1",
                "wire_api": "chat.completions",
                "stream": True,
                "model": "x",
                "api_key_env": "OPENAI_API_KEY",
            }
        )
        self.assertTrue(endpoint.stream)
    def test_extract_response_text_supports_responses_api_output(self) -> None:
        text = _extract_response_text(
            {