[bugfix] remove unused parameters to reduce unnecessary vram usage (vllm-project#26789)

ReinForce-II · yewentao256 · albertoperdomo2 · commit 792df44f3af4 · 2025-10-23T21:17:37.000+01:00
Signed-off-by: Reinforce-II &lt;fate@eastal.com&gt;
Co-authored-by: Wentao Ye &lt;44945378+yewentao256@users.noreply.github.com&gt;
Signed-off-by: Alberto Perdomo &lt;aperdomo@redhat.com&gt;
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -307,10 +307,12 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         layer.w13_weight = torch.nn.Parameter(
             layer.w13_weight_packed.data, requires_grad=False
         )
+        delattr(layer, "w13_weight_packed")
 
         layer.w2_weight = torch.nn.Parameter(
             layer.w2_weight_packed.data, requires_grad=False
         )
+        delattr(layer, "w2_weight_packed")
 
         # reorder GEMM1 weights and block scales for FlashInfer CUTLASS kernel.
         if self.allow_flashinfer:

Original file line number	Diff line number	Diff line change
`@@ -307,10 +307,12 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:`
`307`	`307`	`layer.w13_weight = torch.nn.Parameter(`
`308`	`308`	`layer.w13_weight_packed.data, requires_grad=False`
`309`	`309`	`)`
	`310`	`+ delattr(layer, "w13_weight_packed")`
`310`	`311`
`311`	`312`	`layer.w2_weight = torch.nn.Parameter(`
`312`	`313`	`layer.w2_weight_packed.data, requires_grad=False`
`313`	`314`	`)`
	`315`	`+ delattr(layer, "w2_weight_packed")`
`314`	`316`
`315`	`317`	`# reorder GEMM1 weights and block scales for FlashInfer CUTLASS kernel.`
`316`	`318`	`if self.allow_flashinfer:`