huggingface · LysandreJik · Jan 5, 2021 · Dec 29, 2020 · Dec 29, 2020 · Jan 4, 2021
diff --git a/src/transformers/modeling_utils.py b/src/transformers/modeling_utils.py
@@ -404,6 +404,7 @@ class PreTrainedModel(nn.Module, ModuleUtilsMixin, GenerationMixin):
 
         - **base_model_prefix** (:obj:`str`) -- A string indicating the attribute associated to the base model in
           derived classes of the same architecture adding modules on top of the base model.
+        - **_is_parallelizable** (:obj:`bool`) -- A flag indicating whether this model supports model parallelization.
     """
     config_class = None
     base_model_prefix = ""
@@ -417,6 +418,12 @@ class PreTrainedModel(nn.Module, ModuleUtilsMixin, GenerationMixin):
     # trained, but which are deterministic)
     _keys_to_ignore_on_save = None
 
+    _is_parallelizable = False
+
+    @property
+    def is_parallelizable(self) -> bool:
+        return self._is_parallelizable
+
     @property
     def dummy_inputs(self) -> Dict[str, torch.Tensor]:
         """

diff --git a/src/transformers/models/gpt2/modeling_gpt2.py b/src/transformers/models/gpt2/modeling_gpt2.py
@@ -337,6 +337,7 @@ class GPT2PreTrainedModel(PreTrainedModel):
     config_class = GPT2Config
     load_tf_weights = load_tf_weights_in_gpt2
     base_model_prefix = "transformer"
+    _is_parallelizable = True
 
     def __init__(self, *inputs, **kwargs):
         super().__init__(*inputs, **kwargs)

diff --git a/src/transformers/models/t5/modeling_t5.py b/src/transformers/models/t5/modeling_t5.py
@@ -683,6 +683,7 @@ class T5PreTrainedModel(PreTrainedModel):
     config_class = T5Config
     load_tf_weights = load_tf_weights_in_t5
     base_model_prefix = "transformer"
+    _is_parallelizable = True
 
     @property
     def dummy_inputs(self):

diff --git a/src/transformers/trainer.py b/src/transformers/trainer.py
@@ -242,13 +242,10 @@ def __init__(
         if model is None and model_init is not None:
             model = self.call_model_init()
 
-        if self.args.model_parallel:
-            # XXX: ideally this register should be maintained elsewhere so that the trainer could just do
-            # if model.model_parallel_is_supported()
-            mp_supported = ["gpt2", "t5"]
-            assert (
-                model.config.model_type in mp_supported
-            ), f"{model.config.model_type} implementation currently doesn't support model parallelism, therefore --model_parallel cl arg cannot be used"
+        if not model.is_parallelizable:
+            raise ValueError(
+                f"{model.__class__.__name__} implementation currently doesn't support model parallelism, therefore --model_parallel cl arg cannot be used"
+            )
 
         # Model parallel
         if model is not None and not self.args.model_parallel: