[BugFix] Fix --disable-log-stats in V1 server mode

njhill · njhill · commit 5913eb88be5a · 2025-05-02T12:40:13.000-07:00
Also sum gpu blocks across DP ranks when reporting the num_gpu_blocks metric.

Signed-off-by: Nick Hill &lt;nhill@redhat.com&gt;
diff --git a/vllm/v1/engine/async_llm.py b/vllm/v1/engine/async_llm.py
@@ -120,8 +120,9 @@ def __init__(
             executor_class=executor_class,
             log_stats=self.log_stats,
         )
-        for stat_logger in self.stat_loggers[0]:
-            stat_logger.log_engine_initialized()
+        if self.stat_loggers:
+            for stat_logger in self.stat_loggers[0]:
+                stat_logger.log_engine_initialized()
         self.output_handler: Optional[asyncio.Task] = None
         try:
             # Start output handler eagerly if we are in the asyncio eventloop.
diff --git a/vllm/v1/engine/core_client.py b/vllm/v1/engine/core_client.py
@@ -442,9 +442,10 @@ def _wait_for_engine_startup(self):
             logger.info("Core engine process %d ready.", eng_id)
             identities.discard(eng_id)
             # Setup KV cache config with initialization state from
-            # engine core process.
-            self.vllm_config.cache_config.num_gpu_blocks = message_dict[
-                'num_gpu_blocks']
+            # engine core process. Sum values from all engines in DP case.
+            num_gpu_blocks = self.vllm_config.cache_config.num_gpu_blocks or 0
+            num_gpu_blocks += message_dict['num_gpu_blocks']
+            self.vllm_config.cache_config.num_gpu_blocks = num_gpu_blocks
 
     def _init_core_engines(
         self,