diff --git a/requirements/nightly_torch_test.txt b/requirements/nightly_torch_test.txt
index 790a18f28b7f..67c66a0c03e6 100644
--- a/requirements/nightly_torch_test.txt
+++ b/requirements/nightly_torch_test.txt
@@ -29,8 +29,8 @@ opencv-python-headless >= 4.11.0 # required for video test
 datamodel_code_generator # required for minicpm3 test
 lm-eval[api] @ git+https://github.com/EleutherAI/lm-evaluation-harness.git@206b7722158f58c35b7ffcd53b035fdbdda5126d # required for model evaluation test
 mteb>=1.38.11, <2 # required for mteb test
-transformers==4.52.4
-tokenizers==0.21.1
+transformers==4.56.2
+tokenizers==0.22.0
 schemathesis>=3.39.15 # Required for openai schema test.
 # quantization
 bitsandbytes>=0.46.1
diff --git a/requirements/test.in b/requirements/test.in
index c9496c61a7e4..e0a9311af29d 100644
--- a/requirements/test.in
+++ b/requirements/test.in
@@ -37,8 +37,8 @@ datamodel_code_generator # required for minicpm3 test
 # TODO: Use lm-eval[api]==0.4.10 once released
 lm-eval[api] @ git+https://github.com/EleutherAI/lm-evaluation-harness.git@206b7722158f58c35b7ffcd53b035fdbdda5126d # required for model evaluation test
 mteb[bm25s]>=1.38.11, <2 # required for mteb test
-transformers==4.55.2
-tokenizers==0.21.1
+transformers==4.56.2
+tokenizers==0.22.0
 schemathesis>=3.39.15 # Required for openai schema test.
 # quantization
 bitsandbytes==0.46.1
diff --git a/requirements/test.txt b/requirements/test.txt
index 912e04b2606c..07457e14ccbd 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -1072,7 +1072,7 @@ timm==1.0.17
     #   segmentation-models-pytorch
     #   terratorch
     #   torchgeo
-tokenizers==0.21.1
+tokenizers==0.22.0
     # via
     #   -r requirements/test.in
     #   transformers
@@ -1153,7 +1153,7 @@ tqdm==4.66.6
     #   transformers
 tqdm-multiprocess==0.0.11
     # via lm-eval
-transformers==4.55.2
+transformers==4.56.2
     # via
     #   -r requirements/test.in
     #   genai-perf
diff --git a/tests/models/multimodal/generation/test_common.py b/tests/models/multimodal/generation/test_common.py
index e76b58e61ec1..c378ef670f91 100644
--- a/tests/models/multimodal/generation/test_common.py
+++ b/tests/models/multimodal/generation/test_common.py
@@ -214,7 +214,9 @@
         vllm_runner_kwargs={
             "model_impl": "transformers",
         },
-        marks=[large_gpu_mark(min_gb=32)],
+        # FIXME: Investigate mrope issue
+        marks=[large_gpu_mark(min_gb=32),
+               pytest.mark.skip(reason="Mrope issue")],
     ),
     #### Extended model tests
     "aria": VLMTestInfo(
diff --git a/vllm/model_executor/models/transformers.py b/vllm/model_executor/models/transformers.py
index 00d87f560e70..7dabd12850f4 100644
--- a/vllm/model_executor/models/transformers.py
+++ b/vllm/model_executor/models/transformers.py
@@ -50,7 +50,6 @@
                                         BaseProcessingInfo)
 from vllm.multimodal.profiling import BaseDummyInputsBuilder
 from vllm.sequence import IntermediateTensors
-from vllm.utils import is_list_of
 
 from .interfaces import (MultiModalEmbeddings, SupportsLoRA,
                          SupportsMultiModal, SupportsPP, SupportsQuant)
@@ -216,9 +215,6 @@ def wrapper(*args, **kwargs):
 
 class MultiModalProcessingInfo(BaseProcessingInfo):
 
-    def get_hf_config(self):
-        return self.ctx.model_config.hf_config
-
     def get_supported_mm_limits(self):
         return {"image": None}
 
@@ -845,6 +841,7 @@ def _can_concat(x: list[torch.Tensor]):
     },
     enable_if=can_enable_torch_compile)
 class TransformersForMultimodalLM(TransformersForCausalLM, SupportsMultiModal):
+    merge_by_field_config = True
     # Backwards compatibility for prev released models. State dicts back then
     # had different formats and cannot be loaded with `AutoModel` mapping as is
     hf_to_vllm_mapper = WeightsMapper(
@@ -889,40 +886,27 @@ def get_language_model(self) -> torch.nn.Module:
         return self.model
 
     def get_multimodal_embeddings(self, **kwargs):
-        pixel_values = kwargs.pop("pixel_values", None)
-        pixel_values = pixel_values if pixel_values is not None else kwargs.pop(
-            "image_patches", None)
-        image_embeds = kwargs.pop("image_embeds", None)
+        pixel_values: Optional[torch.Tensor] = kwargs.pop("pixel_values", None)
+        image_embeds: Optional[torch.Tensor] = kwargs.pop("image_embeds", None)
+        # Model might use `image_patches` instead of `pixel_values`
+        if pixel_values is None:
+            pixel_values = kwargs.pop("image_patches", None)
 
         if image_embeds is not None:
             return image_embeds
 
-        if pixel_values is None and image_embeds is None:
+        if pixel_values is None:
             return None
 
         num_image_patches = kwargs.pop("num_image_patches")
         if pixel_values is not None:
-            if isinstance(pixel_values, torch.Tensor):
-                pixel_values = flatten_bn(pixel_values).to(self.dtype)
-            elif is_list_of(pixel_values, torch.Tensor):
-                pixel_values = flatten_and_concat(pixel_values).to(self.dtype)
-            else:
-                raise ValueError(
-                    f"Unsupported pixel_values type {type(pixel_values)}. "
-                    "Expected `torch.Tensor` or list of `torch.Tensor`.")
-
-            if isinstance(num_image_patches, list):
-                num_image_patches = torch.cat(num_image_patches)
-
             vision_embeddings = self.model.get_image_features(
-                pixel_values,
-                **{
-                    k: v.flatten(0, 1)
-                    for k, v in kwargs.items()
-                },
-            )
+                pixel_values, **kwargs)
 
             if isinstance(vision_embeddings, torch.Tensor):
+                if isinstance(num_image_patches, list):
+                    num_image_patches = torch.cat(num_image_patches)
+
                 if vision_embeddings.ndim == 2:
                     vision_embeddings = vision_embeddings.unsqueeze(0)