[BugFix] Fix FusedMoELoRA + ModularKernel Integration (#28237)

varun-sundar-rabindranath · Varun Sundar Rabindranath · web-flow · commit ca6f755d2416 · 2025-11-06T22:53:30.000Z
Signed-off-by: Varun Sundar Rabindranath &lt;vsundarr@redhat.com&gt;
Co-authored-by: Varun Sundar Rabindranath &lt;vsundarr@redhat.com&gt;
diff --git a/vllm/lora/layers/fused_moe.py b/vllm/lora/layers/fused_moe.py
@@ -25,6 +25,7 @@
     modular_triton_fused_moe,
     try_get_optimal_moe_config,
 )
+from vllm.model_executor.layers.fused_moe.layer import FusedMoEModularMethod
 
 
 class FusedMoEWithLoRA(BaseLayerWithLoRA):
@@ -280,10 +281,9 @@ def wrapper(*args, **kwargs):
             self.base_layer, fused_experts.moe_sum
         )
 
-        self.base_layer.quant_method.old_fused_experts = (
-            self.base_layer.quant_method.fused_experts
+        self.base_layer.quant_method = FusedMoEModularMethod(
+            self.base_layer.quant_method, m_fused_moe_fn
         )
-        self.base_layer.quant_method.fused_experts = m_fused_moe_fn
 
     def create_lora_weights(
         self,

Original file line number	Diff line number	Diff line change
`@@ -25,6 +25,7 @@`
`25`	`25`	`modular_triton_fused_moe,`
`26`	`26`	`try_get_optimal_moe_config,`
`27`	`27`	`)`
	`28`	`+from vllm.model_executor.layers.fused_moe.layer import FusedMoEModularMethod`
`28`	`29`
`29`	`30`
`30`	`31`	`class FusedMoEWithLoRA(BaseLayerWithLoRA):`
`@@ -280,10 +281,9 @@ def wrapper(args, *kwargs):`
`280`	`281`	`self.base_layer, fused_experts.moe_sum`
`281`	`282`	`)`
`282`	`283`
`283`		`- self.base_layer.quant_method.old_fused_experts = (`
`284`		`- self.base_layer.quant_method.fused_experts`
	`284`	`+ self.base_layer.quant_method = FusedMoEModularMethod(`
	`285`	`+ self.base_layer.quant_method, m_fused_moe_fn`
`285`	`286`	`)`
`286`		`- self.base_layer.quant_method.fused_experts = m_fused_moe_fn`
`287`	`287`
`288`	`288`	`def create_lora_weights(`
`289`	`289`	`self,`