Done

jeejeelee · jeejeelee · commit 3ce2624a5cd9 · 2025-02-21T02:43:08.000Z
Signed-off-by: Jee Jee Li &lt;pandaleefree@gmail.com&gt;
diff --git a/vllm/model_executor/models/transformers.py b/vllm/model_executor/models/transformers.py
@@ -43,7 +43,7 @@
 from vllm.model_executor.sampling_metadata import SamplingMetadata
 from vllm.sequence import IntermediateTensors
 
-from .interfaces import SupportsLoRA, SupportsQuant
+from .interfaces import SupportsQuant
 from .utils import maybe_prefix
 
 logger = init_logger(__name__)
@@ -108,7 +108,7 @@ def replace_linear_class(
         "rowwise": RowParallelLinear,
     }.get(style, ReplicatedLinear)
 
-    lora_cls_map = {
+    lora_linear_cls = {
         ColumnParallelLinear: {
             True: ColumnParallelLinearWithShardedLoRA,  # fully sharded
             False: ColumnParallelLinearWithLoRA  # not fully sharded
@@ -117,7 +117,7 @@ def replace_linear_class(
             True: RowParallelLinearWithShardedLoRA,
             False: RowParallelLinearWithLoRA
         },
-        # ReplicatedLinear doesn't supoort fully sharded LoRA yet,
+        # ReplicatedLinear doesn't support fully sharded LoRA yet,
         # so we use the same class for both cases.
         ReplicatedLinear: {
             True: ReplicatedLinearWithLoRA,
@@ -144,7 +144,7 @@ def get_lora_class(cls, fully_sharded: bool = False):
                 that supports fully sharded LoRA. Defaults to False.
 
             """
-            return lora_cls_map[vllm_linear_cls][fully_sharded]
+            return lora_linear_cls[vllm_linear_cls][fully_sharded]
 
     return HFCompatibleLinear(
         input_size=linear.in_features,
@@ -154,7 +154,7 @@ def get_lora_class(cls, fully_sharded: bool = False):
     )
 
 
-class TransformersModel(nn.Module, SupportsQuant, SupportsLoRA):
+class TransformersModel(nn.Module, SupportsQuant):
     embedding_padding_modules = ["lm_head"]
     embedding_modules = ["embed_tokens"
                          ]  # TODO transformers will have a util to get it