Fix CUDA sync of qwen image and video preprocess

cyyever · cyyever · commit ee260704aa4c · 2025-08-13T17:36:09.000+08:00
Signed-off-by: cyy &lt;cyyever@outlook.com&gt;
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
@@ -976,10 +976,13 @@ def _process_image_input(
             image_embeds = self.visual(pixel_values, grid_thw=grid_thw_list)
 
         # Split concatenated embeddings for each image item.
+        # Using prod on grid_thw_list instead of grid_thw.prod avoids CUDA sync
         merge_size = self.visual.spatial_merge_size
-        sizes = grid_thw.prod(-1) // merge_size // merge_size
+        sizes = (
+            torch.prod(torch.tensor(grid_thw_list, dtype=torch.long), -1) //
+            merge_size // merge_size).tolist()
 
-        return image_embeds.split(sizes.tolist())
+        return image_embeds.split(sizes)
 
     def _process_video_input(
             self,
@@ -998,9 +1001,12 @@ def _process_video_input(
 
         # Split concatenated embeddings for each video item.
         merge_size = self.visual.spatial_merge_size
-        sizes = grid_thw.prod(-1) // merge_size // merge_size
+        # Using prod on grid_thw_list instead of grid_thw.prod avoids CUDA sync
+        sizes = (
+            torch.prod(torch.tensor(grid_thw_list, dtype=torch.long), -1) //
+            merge_size // merge_size).tolist()
 
-        return video_embeds.split(sizes.tolist())
+        return video_embeds.split(sizes)
 
     def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
         mm_input_by_modality = {}