vllm-project
diff --git a/‎vllm/attention/backends/rocm_flash_attn.py‎
Lines changed: 3 additions & 2 deletions b/‎vllm/attention/backends/rocm_flash_attn.py‎
Lines changed: 3 additions & 2 deletions
@@ -770,8 +770,9 @@ def forward(
                                       and layer._v_scale and layer._prob_scale
                                       and self.kv_cache_dtype == "fp8")
                     full_scales = (
-                        layer._q_scale, layer._k_scale, layer._v_scale,
-                        layer._prob_scale) if use_fp8_scales else None
+                        layer._q_scale.item(), layer._k_scale.item(),
+                        layer._v_scale.item(),
+                        layer._prob_scale.item()) if use_fp8_scales else None
                     self.triton_attn_func(
                         query,
                         key,