[Perf] Use small max_num_batched_tokens for A100 (vllm-project#17885)

KuntaiDu · mawong-amd · commit 20189d9bf6c0 · 2025-05-13T21:07:23.000Z
Signed-off-by: KuntaiDu &lt;kuntai@uchicago.edu&gt;
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
@@ -1438,11 +1438,15 @@ def _set_default_args_v1(self, usage_context: UsageContext) -> None:
         from vllm.platforms import current_platform
         try:
             device_memory = current_platform.get_device_total_memory()
+            device_name = current_platform.get_device_name().lower()
         except Exception:
             # This is only used to set default_max_num_batched_tokens
             device_memory = 0
 
-        if device_memory >= 70 * GiB_bytes:
+        # NOTE(Kuntai): Setting large `max_num_batched_tokens` for A100 reduces
+        # throughput, see PR #17885 for more details.
+        # So here we do an extra device name check to prevent such regression.
+        if device_memory >= 70 * GiB_bytes and "a100" not in device_name:
             # For GPUs like H100 and MI300x, use larger default values.
             default_max_num_batched_tokens = {
                 UsageContext.LLM_CLASS: 16384,