huggingface
diff --git a/‎docs/source/en/model_doc/bridgetower.md‎
Lines changed: 5 additions & 0 deletions b/‎docs/source/en/model_doc/bridgetower.md‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎docs/source/en/model_doc/efficientnet.md‎
Lines changed: 5 additions & 0 deletions b/‎docs/source/en/model_doc/efficientnet.md‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎docs/source/ja/model_doc/bridgetower.md‎
Lines changed: 5 additions & 0 deletions b/‎docs/source/ja/model_doc/bridgetower.md‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎src/transformers/image_utils.py‎
Lines changed: 1 addition & 1 deletion b/‎src/transformers/image_utils.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/auto/image_processing_auto.py‎
Lines changed: 3 additions & 3 deletions b/‎src/transformers/models/auto/image_processing_auto.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/transformers/models/bamba/modeling_bamba.py‎
Lines changed: 2 additions & 2 deletions b/‎src/transformers/models/bamba/modeling_bamba.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/transformers/models/bamba/modular_bamba.py‎
Lines changed: 2 additions & 2 deletions b/‎src/transformers/models/bamba/modular_bamba.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/transformers/models/beit/modeling_beit.py‎
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/beit/modeling_beit.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/bridgetower/__init__.py‎
Lines changed: 1 addition & 0 deletions b/‎src/transformers/models/bridgetower/__init__.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/transformers/models/bridgetower/image_processing_bridgetower.py‎
Lines changed: 3 additions & 5 deletions b/‎src/transformers/models/bridgetower/image_processing_bridgetower.py‎
Lines changed: 3 additions & 5 deletions
@@ -147,6 +147,11 @@ Tips:
 [[autodoc]] BridgeTowerImageProcessor
     - preprocess
 
+## BridgeTowerImageProcessorFast
+
+[[autodoc]] BridgeTowerImageProcessorFast
+    - preprocess
+
 ## BridgeTowerProcessor
 
 [[autodoc]] BridgeTowerProcessor
 
@@ -43,6 +43,11 @@ The original code can be found [here](https://github.com/tensorflow/tpu/tree/mas
 [[autodoc]] EfficientNetImageProcessor
     - preprocess
 
+## EfficientNetImageProcessorFast
+
+[[autodoc]] EfficientNetImageProcessorFast
+    - preprocess
+
 ## EfficientNetModel
 
 [[autodoc]] EfficientNetModel
 
@@ -144,6 +144,11 @@ BridgeTower は、ビジュアル エンコーダー、テキスト エンコー
 [[autodoc]] BridgeTowerImageProcessor
     - preprocess
 
+## BridgeTowerImageProcessorFast
+
+[[autodoc]] BridgeTowerImageProcessorFast
+    - preprocess
+
 ## BridgeTowerProcessor
 
 [[autodoc]] BridgeTowerProcessor
 
@@ -66,7 +66,7 @@
         from torchvision.transforms import InterpolationMode
 
         pil_torch_interpolation_mapping = {
-            PILImageResampling.NEAREST: InterpolationMode.NEAREST,
+            PILImageResampling.NEAREST: InterpolationMode.NEAREST_EXACT,
             PILImageResampling.BOX: InterpolationMode.BOX,
             PILImageResampling.BILINEAR: InterpolationMode.BILINEAR,
             PILImageResampling.HAMMING: InterpolationMode.HAMMING,
 
@@ -56,13 +56,13 @@
 else:
     IMAGE_PROCESSOR_MAPPING_NAMES = OrderedDict(
         [
-            ("align", ("EfficientNetImageProcessor",)),
+            ("align", ("EfficientNetImageProcessor", "EfficientNetImageProcessorFast")),
             ("aria", ("AriaImageProcessor",)),
             ("beit", ("BeitImageProcessor",)),
             ("bit", ("BitImageProcessor", "BitImageProcessorFast")),
             ("blip", ("BlipImageProcessor", "BlipImageProcessorFast")),
             ("blip-2", ("BlipImageProcessor", "BlipImageProcessorFast")),
-            ("bridgetower", ("BridgeTowerImageProcessor",)),
+            ("bridgetower", ("BridgeTowerImageProcessor", "BridgeTowerImageProcessorFast")),
             ("chameleon", ("ChameleonImageProcessor",)),
             ("chinese_clip", ("ChineseCLIPImageProcessor", "ChineseCLIPImageProcessorFast")),
             ("clip", ("CLIPImageProcessor", "CLIPImageProcessorFast")),
@@ -83,7 +83,7 @@
             ("donut-swin", ("DonutImageProcessor", "DonutImageProcessorFast")),
             ("dpt", ("DPTImageProcessor",)),
             ("efficientformer", ("EfficientFormerImageProcessor",)),
-            ("efficientnet", ("EfficientNetImageProcessor",)),
+            ("efficientnet", ("EfficientNetImageProcessor", "EfficientNetImageProcessorFast")),
             ("flava", ("FlavaImageProcessor", "FlavaImageProcessorFast")),
             ("focalnet", ("BitImageProcessor", "BitImageProcessorFast")),
             ("fuyu", ("FuyuImageProcessor",)),
 
@@ -783,8 +783,8 @@ def torch_forward(
             hidden_states = hidden_states.reshape(batch_size, seq_len, -1, self.head_dim).float()
             B = B.reshape(batch_size, seq_len, -1, self.ssm_state_size).float()
             C = C.reshape(batch_size, seq_len, -1, self.ssm_state_size).float()
-            B = B.repeat(1, 1, self.num_heads // self.n_groups, 1)
-            C = C.repeat(1, 1, self.num_heads // self.n_groups, 1)
+            B = B.repeat_interleave(self.num_heads // self.n_groups, dim=2, output_size=self.num_heads)
+            C = C.repeat_interleave(self.num_heads // self.n_groups, dim=2, output_size=self.num_heads)
             pad_size = (self.chunk_size - seq_len % self.chunk_size) % self.chunk_size
 
             D_residual = self.D[..., None] * pad_tensor_by_size(hidden_states, pad_size)
 
@@ -580,8 +580,8 @@ def torch_forward(
             hidden_states = hidden_states.reshape(batch_size, seq_len, -1, self.head_dim).float()
             B = B.reshape(batch_size, seq_len, -1, self.ssm_state_size).float()
             C = C.reshape(batch_size, seq_len, -1, self.ssm_state_size).float()
-            B = B.repeat(1, 1, self.num_heads // self.n_groups, 1)
-            C = C.repeat(1, 1, self.num_heads // self.n_groups, 1)
+            B = B.repeat_interleave(self.num_heads // self.n_groups, dim=2, output_size=self.num_heads)
+            C = C.repeat_interleave(self.num_heads // self.n_groups, dim=2, output_size=self.num_heads)
             pad_size = (self.chunk_size - seq_len % self.chunk_size) % self.chunk_size
 
             D_residual = self.D[..., None] * pad_tensor_by_size(hidden_states, pad_size)
 
@@ -663,7 +663,7 @@ def __init__(self, config: BeitConfig, window_size: Optional[tuple] = None) -> N
             self.relative_position_bias = BeitRelativePositionBias(config, window_size=window_size)
 
         # stochastic depth decay rule
-        dpr = [x.item() for x in torch.linspace(0, config.drop_path_rate, config.num_hidden_layers)]
+        dpr = [x.item() for x in torch.linspace(0, config.drop_path_rate, config.num_hidden_layers, device="cpu")]
         self.layer = nn.ModuleList(
             [
                 BeitLayer(
 
@@ -20,6 +20,7 @@
 if TYPE_CHECKING:
     from .configuration_bridgetower import *
     from .image_processing_bridgetower import *
+    from .image_processing_bridgetower_fast import *
     from .modeling_bridgetower import *
     from .processing_bridgetower import *
 else:
 
@@ -28,8 +28,8 @@
     PILImageResampling,
     get_image_size,
     infer_channel_dimension_format,
-    is_batched,
     is_scaled_image,
+    make_flat_list_of_images,
     to_numpy_array,
     valid_images,
     validate_preprocess_arguments,
@@ -455,7 +455,7 @@ def preprocess(
         image_mean = image_mean if image_mean is not None else self.image_mean
         image_std = image_std if image_std is not None else self.image_std
         do_pad = do_pad if do_pad is not None else self.do_pad
-        do_center_crop if do_center_crop is not None else self.do_center_crop
+        do_center_crop = do_center_crop if do_center_crop is not None else self.do_center_crop
         # For backwards compatibility. Initial version of this processor was cropping to the "size" argument, which
         # it should default to if crop_size is undefined.
         crop_size = (
@@ -464,9 +464,7 @@ def preprocess(
 
         size = size if size is not None else self.size
         size = get_size_dict(size, default_to_square=False)
-
-        if not is_batched(images):
-            images = [images]
+        images = make_flat_list_of_images(images)
 
         if not valid_images(images):
             raise ValueError(
Original file line number	Diff line number	Diff line change
`@@ -663,7 +663,7 @@ def __init__(self, config: BeitConfig, window_size: Optional[tuple] = None) -> N`
`663`	`663`	`self.relative_position_bias = BeitRelativePositionBias(config, window_size=window_size)`
`664`	`664`
`665`	`665`	`# stochastic depth decay rule`
`666`		`- dpr = [x.item() for x in torch.linspace(0, config.drop_path_rate, config.num_hidden_layers)]`
	`666`	`+ dpr = [x.item() for x in torch.linspace(0, config.drop_path_rate, config.num_hidden_layers, device="cpu")]`
`667`	`667`	`self.layer = nn.ModuleList(`
`668`	`668`	`[`
`669`	`669`	`BeitLayer(`