Fix PerceptionLM image preprocessing for non-tiled image input.

shuminghu · shuminghu · commit c7612052e1ed · 2025-08-07T16:16:16.000Z
diff --git a/src/transformers/models/perception_lm/image_processing_perception_lm_fast.py b/src/transformers/models/perception_lm/image_processing_perception_lm_fast.py
@@ -310,7 +310,7 @@ def _preprocess(
             )
             processed_images_grouped[shape] = stacked_images
         processed_images = reorder_images(processed_images_grouped, grouped_images_index)
-
+        processed_images = [p[None] if p.ndim == 3 else p for p in processed_images] # add tiles dimension if needed
         processed_images = torch.stack(processed_images, dim=0) if return_tensors else processed_images
         return BatchFeature(data={"pixel_values": processed_images}, tensor_type=return_tensors)
 

Original file line number	Diff line number	Diff line change
`@@ -310,7 +310,7 @@ def _preprocess(`
`310`	`310`	`)`
`311`	`311`	`processed_images_grouped[shape] = stacked_images`
`312`	`312`	`processed_images = reorder_images(processed_images_grouped, grouped_images_index)`
`313`		`-`
	`313`	`+ processed_images = [p[None] if p.ndim == 3 else p for p in processed_images] # add tiles dimension if needed`
`314`	`314`	`processed_images = torch.stack(processed_images, dim=0) if return_tensors else processed_images`
`315`	`315`	`return BatchFeature(data={"pixel_values": processed_images}, tensor_type=return_tensors)`
`316`	`316`