[V1] add generate optional in health api

lengrongfu · lengrongfu · commit 0388807276c1 · 2025-09-26T00:30:46.000-07:00
Signed-off-by: rongfu.leng &lt;rongfu.leng@daocloud.io&gt;
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
@@ -99,10 +99,13 @@
                                     log_non_default_args, with_cancellation)
 from vllm.logger import init_logger
 from vllm.reasoning import ReasoningParserManager
+from vllm.sampling_params import SamplingParams
+from vllm.transformers_utils.config import (
+    maybe_register_config_serialize_by_value)
 from vllm.transformers_utils.tokenizer import MistralTokenizer
 from vllm.usage.usage_lib import UsageContext
 from vllm.utils import (Device, FlexibleArgumentParser, decorate_logs,
-                        is_valid_ipv6_address, set_ulimit)
+                        is_valid_ipv6_address, random_uuid, set_ulimit)
 from vllm.v1.engine.exceptions import EngineDeadError
 from vllm.v1.metrics.prometheus import get_prometheus_registry
 from vllm.version import __version__ as VLLM_VERSION
@@ -341,10 +344,18 @@ def engine_client(request: Request) -> EngineClient:
 
 
 @router.get("/health", response_class=Response)
-async def health(raw_request: Request) -> Response:
+async def health(
+    raw_request: Request, generate: Optional[bool] = Query(False)) -> Response:
     """Health check."""
     try:
         await engine_client(raw_request).check_health()
+        if generate:
+            prompt = "Hi"
+            sampling_params = SamplingParams(temperature=0, max_tokens=2)
+            request_id = random_uuid()
+            async for _ in engine_client(raw_request).generate(prompt, sampling_params,
+                                           request_id):
+                pass
         return Response(status_code=200)
     except EngineDeadError:
         return Response(status_code=503)