houseroad · houseroad · Apr 5, 2025 · Apr 5, 2025 · sarckk · Apr 5, 2025
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -783,13 +783,18 @@ def apply(
         custom_routing_function: Optional[Callable] = None,
         scoring_func: str = "softmax",
         e_score_correction_bias: Optional[torch.Tensor] = None,
+        apply_router_weight_on_input: bool = False,
         activation: str = "silu",
     ) -> torch.Tensor:
         assert activation == "silu", "Only SiLU activation is supported."
         if expert_map is not None:
             raise NotImplementedError(
                 "Expert Parallelism is not supported for "
                 "fused Marlin MoE method.")
+        if apply_router_weight_on_input:
+            raise NotImplementedError(
+                "Apply router weight on input is not supported for "
+                "fused Marlin MoE method.")
-                "fused Marlin MoE method.")
+                "CompressedTensorsWNA16 MoE method.")
-                "fused Marlin MoE method.")
+                "CompressedTensorsWNA16 MoE method.")
 
         topk_weights, topk_ids = FusedMoE.select_experts(
             hidden_states=x,