fixes

Varun Sundar Rabindranath · Varun Sundar Rabindranath · commit f01a7e16690a · 2025-10-06T16:17:38.000Z
Signed-off-by: Varun Sundar Rabindranath &lt;vsundarr@redhat.com&gt;
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
@@ -3401,30 +3401,26 @@ def _dummy_run(
         with self.maybe_dummy_run_with_lora(
             self.lora_config, num_scheduled_tokens, remove_lora
         ):
-        # Make sure padding doesn't exceed max_num_tokens
-        assert num_tokens_after_padding <= self.max_num_tokens
+            # Make sure padding doesn't exceed max_num_tokens
+            assert num_tokens_after_padding <= self.max_num_tokens
             model_kwargs = self._init_model_kwargs(num_tokens_after_padding)
             if self.supports_mm_inputs and not self.model_config.is_encoder_decoder:
                 input_ids = None
-                inputs_embeds = self.inputs_embeds.gpu[:
-                                                       num_tokens_after_padding]
+                inputs_embeds = self.inputs_embeds.gpu[:num_tokens_after_padding]
                 model_kwargs = {
                     **model_kwargs,
                     **self._dummy_mm_kwargs(num_reqs),
                 }
             elif self.enable_prompt_embeds:
                 input_ids = None
-                inputs_embeds = self.inputs_embeds.gpu[:
-                                                       num_tokens_after_padding]
-                model_kwargs = self._init_model_kwargs(
-                    num_tokens_after_padding)
+                inputs_embeds = self.inputs_embeds.gpu[:num_tokens_after_padding]
+                model_kwargs = self._init_model_kwargs(num_tokens_after_padding)
             else:
                 input_ids = self.input_ids.gpu[:num_tokens_after_padding]
                 inputs_embeds = None
 
             if self.uses_mrope:
-                positions = self.mrope_positions.gpu[:, :
-                                                     num_tokens_after_padding]
+                positions = self.mrope_positions.gpu[:, :num_tokens_after_padding]
             else:
                 positions = self.positions.gpu[:num_tokens_after_padding]
 
@@ -3441,12 +3437,8 @@ def _dummy_run(
                     )
 
                 intermediate_tensors = self.sync_and_slice_intermediate_tensors(
-<<<<<<< HEAD
-                    num_tokens, None, False
+                    num_tokens_after_padding, None, False
                 )
-=======
-                    num_tokens_after_padding, None, False)
->>>>>>> f38a17972 (pad input buffers)
 
             # filter out the valid batch descriptor
             _cg_mode, batch_descriptor = (