Fix initializing GGUF weights for ColumnParallelLinear when using tensor parallel > 1 (vllm-project#13023)

SzymonOzog · SzymonOzog · commit c1ab261c8506 · 2025-02-12T15:52:11.000Z
Signed-off-by: SzymonOzog &lt;szymon.ozog@aleph-alpha.com&gt;
diff --git a/vllm/model_executor/layers/linear.py b/vllm/model_executor/layers/linear.py
@@ -363,7 +363,7 @@ def weight_loader(self, param: Parameter, loaded_weight: torch.Tensor):
         # Materialize GGUF UninitializedParameter
         if is_gguf_weight and isinstance(param, UninitializedParameter):
             final_shape = list(loaded_weight.shape)
-            if output_dim is not None and not is_sharded_weight:
+            if output_dim is not None:
                 tp_size = get_tensor_model_parallel_world_size()
                 assert final_shape[output_dim] % tp_size == 0
                 final_shape[output_dim] = final_shape[output_dim] // tp_size