[V1][Minor] Do not print attn backend twice (vllm-project#13985)

WoosukKwon · Akshat-Tripathi · commit 8aea81ef7ed1 · 2025-03-03T18:07:50.000Z
Signed-off-by: Woosuk Kwon &lt;woosuk.kwon@berkeley.edu&gt;
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
@@ -178,7 +178,8 @@ def get_attn_backend_cls(cls, selected_backend, head_size, dtype,
                         block_size)
                 else:
                     if use_v1:
-                        logger.info("Using FlashMLA backend on V1 engine.")
+                        logger.info_once(
+                            "Using FlashMLA backend on V1 engine.")
                         return ("vllm.v1.attention.backends.mla."
                                 "flashmla.FlashMLABackend")
                     else:
@@ -187,14 +188,14 @@ def get_attn_backend_cls(cls, selected_backend, head_size, dtype,
                                 "flashmla.FlashMLABackend")
 
             if use_v1:
-                logger.info("Using Triton MLA backend on V1 engine.")
+                logger.info_once("Using Triton MLA backend on V1 engine.")
                 return ("vllm.v1.attention.backends.mla."
                         "triton_mla.TritonMLABackend")
             else:
                 logger.info("Using Triton MLA backend.")
                 return "vllm.attention.backends.triton_mla.TritonMLABackend"
         if use_v1:
-            logger.info("Using Flash Attention backend on V1 engine.")
+            logger.info_once("Using Flash Attention backend on V1 engine.")
             return ("vllm.v1.attention.backends.flash_attn."
                     "FlashAttentionBackend")
         if selected_backend == _Backend.FLASHINFER: