[Bug] Fix Long Context OOM Issue (vllm-project#25290)

yewentao256 · xuebwang-amd · commit cedceb70f7ee · 2025-10-10T09:38:31.000Z
Signed-off-by: yewentao256 &lt;zhyanwentao@126.com&gt;
Signed-off-by: xuebwang-amd &lt;xuebwang@amd.com&gt;
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
@@ -481,7 +481,7 @@ def __init__(self,
             # which would result in up-projected context being
             #   2*(192*128)*(64*1024) = 3gb
             # (assuming 192 QK head dim, 128 heads, and fp16)
-            128 * 1024)
+            64 * 1024)
         assert self.chunked_prefill_workspace_size >= \
             scheduler_config.max_num_seqs * cache_config.block_size
         if self.dcp_world_size > 1: