Track token usage for LLM streaming responses

2025-04-08 06:35:04 +00:00 · 2025-03-24 12:25:09 +01:00 · 2025-03-24 12:25:09 +01:00 · c56dbe19cf
commit c56dbe19cf
parent c5446db233
1 changed files with 4 additions and 0 deletions
--- a/backend/beyond_the_loop/routers/openai.py
+++ b/backend/beyond_the_loop/routers/openai.py
@ -690,6 +690,10 @@ async def generate_chat_completion(
    if "max_tokens" in payload and "max_completion_tokens" in payload:
        del payload["max_tokens"]

+    # Add stream_options to include usage information in streaming responses
+    if "stream" in payload and payload["stream"]:
+        payload["stream_options"] = {"include_usage": True}
+
    # Convert the modified body back to JSON
    payload = json.dumps(payload)