Add bfloat16 cast in scales

qihqi · qihqi · commit bf881f6181d5 · 2025-11-06T01:18:05.000Z
diff --git a/tpu_inference/layers/vllm/quantization/compressed_tensors/compressed_tensors_moe.py b/tpu_inference/layers/vllm/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -147,11 +147,11 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         w3_weight_scale = layer.w13_weight_scale[:, intermediate_size:]
 
         w2_weight = t2j(layer.w2_weight, use_dlpack=False)
-        w2_weight_scale = t2j(layer.w2_weight_scale, use_dlpack=False)
+        w2_weight_scale = t2j(layer.w2_weight_scale.to(torch.bfloat16), use_dlpack=False)
         w1_weight = t2j(w1_weight, use_dlpack=False)
-        w1_weight_scale = t2j(w1_weight_scale, use_dlpack=False)
+        w1_weight_scale = t2j(w1_weight_scale.to(torch.bfloat16), use_dlpack=False)
         w3_weight = t2j(w3_weight, use_dlpack=False)
-        w3_weight_scale = t2j(w3_weight_scale, use_dlpack=False)
+        w3_weight_scale = t2j(w3_weight_scale.to(torch.bfloat16), use_dlpack=False)
 
         if layer.use_ep:
             format = Format(