fix(request-audio): loop through model_names

max-wittig · max-wittig · commit 8e02e5cd59cf · 2025-09-08T08:45:03.000+02:00
Signed-off-by: Max Wittig &lt;max.wittig@siemens.com&gt;
diff --git a/src/vllm_router/service_discovery.py b/src/vllm_router/service_discovery.py
@@ -94,6 +94,8 @@ class EndpointInfo:
     # Model label
     model_label: str
 
+    model_type: str
+
     # Endpoint's sleep status
     sleep: bool
 
@@ -306,13 +308,15 @@ def get_endpoint_info(self) -> List[EndpointInfo]:
             ):
                 continue
             model_label = self.model_labels[i] if self.model_labels else "default"
+            model_type = self.model_types[i] if self.model_types else "default"
             endpoint_info = EndpointInfo(
                 url=url,
                 model_names=[model],  # Convert single model to list
                 Id=self.engines_id[i],
                 sleep=False,
                 added_timestamp=self.added_timestamp,
                 model_label=model_label,
+                model_type=model_type,
                 model_info=self._get_model_info(model),
             )
             endpoint_infos.append(endpoint_info)
diff --git a/src/vllm_router/services/request_service/request.py b/src/vllm_router/services/request_service/request.py
@@ -539,7 +539,6 @@ async def route_general_transcriptions(
             content={"error": f"Invalid request: missing '{e.args[0]}' in form data."},
         )
 
-    logger.debug("==== Enter audio_transcriptions ====")
     logger.debug("Received upload: %s (%s)", file.filename, file.content_type)
     logger.debug(
         "Params: model=%s prompt=%r response_format=%r temperature=%r language=%s",
@@ -565,18 +564,16 @@ async def route_general_transcriptions(
 
     endpoints = service_discovery.get_endpoint_info()
 
-    logger.debug("==== Total endpoints ====")
-    logger.debug(endpoints)
-    logger.debug("==== Total endpoints ====")
-
-    # filter the endpoints url by model name and label for transcriptions
-    transcription_endpoints = [
-        ep
-        for ep in endpoints
-        if model == ep.model_name
-        and ep.model_label == "transcription"
-        and not ep.sleep  # Added ep.sleep == False
-    ]
+    # filter the endpoints url by model name and model_type for transcriptions
+    transcription_endpoints = []
+    for ep in endpoints:
+        for model_name in ep.model_names:
+            if (
+                model == model_name
+                and ep.model_type == "transcription"
+                and not ep.sleep
+            ):
+                transcription_endpoints.append(ep)
 
     logger.debug("====List of transcription endpoints====")
     logger.debug(transcription_endpoints)
@@ -620,10 +617,6 @@ async def route_general_transcriptions(
 
     logger.info("Proxying transcription request for model %s to %s", model, chosen_url)
 
-    logger.debug("==== data payload keys ====")
-    logger.debug(list(data.keys()))
-    logger.debug("==== data payload keys ====")
-
     try:
         client = request.app.state.aiohttp_client_wrapper()
 
@@ -687,3 +680,9 @@ async def route_general_transcriptions(
             status_code=503,
             content={"error": f"Failed to connect to backend: {str(client_error)}"},
         )
+    except Exception as e:
+        logger.error(e)
+        return JSONResponse(
+            status_code=500,
+            content={"error": f"Internal server error"},
+        )