Filter modalities

DarkLight1337 · DarkLight1337 · commit 10532e58c1a6 · 2025-10-25T04:14:50.000Z
Signed-off-by: DarkLight1337 &lt;tlleungac@connect.ust.hk&gt;
diff --git a/vllm/multimodal/profiling.py b/vllm/multimodal/profiling.py
@@ -355,7 +355,11 @@ def _get_mm_max_tokens(
             mm_counts=mm_counts,
         )
         if max_tokens_per_item is not None:
-            return max_tokens_per_item
+            return {
+                modality: max_tokens
+                for modality, max_tokens in max_tokens_per_item.items()
+                if mm_counts.get(modality, 0) > 0
+            }
 
         mm_inputs = self._get_dummy_mm_inputs(seq_len, mm_counts)
         return self._get_mm_num_tokens(mm_inputs, mm_embeddings_only=mm_embeddings_only)
@@ -375,5 +379,4 @@ def get_mm_max_contiguous_tokens(
         This is important to take into account when profiling and
         initializing the encoder cache size.
         """
-
         return self._get_mm_max_tokens(seq_len, mm_counts, mm_embeddings_only=False)