Aiter mha fp8 fix (vllm-project#24991)

dllehr-amd · Doug Lehr · debroy-rh · commit 23afac1ba111 · 2025-09-19T16:00:59.000-04:00
Signed-off-by: Doug Lehr &lt;douglehr@amd.com&gt;
Co-authored-by: Doug Lehr &lt;douglehr@amd.com&gt;
diff --git a/vllm/attention/ops/rocm_aiter_paged_attn.py b/vllm/attention/ops/rocm_aiter_paged_attn.py
@@ -81,8 +81,8 @@ def forward_decode(
                 blocksparse_head_sliding_step=blocksparse_head_sliding_step)
 
         if "fp8" in kv_cache_dtype:
-            key_cache = key_cache.view(torch.float8_e4m3fnuz)
-            value_cache = value_cache.view(torch.float8_e4m3fnuz)
+            key_cache = key_cache.view(current_platform.fp8_dtype())
+            value_cache = value_cache.view(current_platform.fp8_dtype())
 
         if blocksparse_vert_stride is not None and blocksparse_vert_stride > 1:
             # use blocksparse paged attention
diff --git a/vllm/v1/attention/backends/rocm_aiter_fa.py b/vllm/v1/attention/backends/rocm_aiter_fa.py
@@ -479,8 +479,8 @@ def forward(
             )
 
         if self.kv_cache_dtype.startswith("fp8"):
-            key_cache = key_cache.view(torch.float8_e4m3fnuz)
-            value_cache = value_cache.view(torch.float8_e4m3fnuz)
+            key_cache = key_cache.view(current_platform.fp8_dtype())
+            value_cache = value_cache.view(current_platform.fp8_dtype())
 
         if not attn_metadata.use_cascade:
             cu_seqlens_q = attn_metadata.query_start_loc

Original file line number	Diff line number	Diff line change
`@@ -479,8 +479,8 @@ def forward(`
`479`	`479`	`)`
`480`	`480`
`481`	`481`	`if self.kv_cache_dtype.startswith("fp8"):`
`482`		`- key_cache = key_cache.view(torch.float8_e4m3fnuz)`
`483`		`- value_cache = value_cache.view(torch.float8_e4m3fnuz)`
	`482`	`+ key_cache = key_cache.view(current_platform.fp8_dtype())`
	`483`	`+ value_cache = value_cache.view(current_platform.fp8_dtype())`
`484`	`484`
`485`	`485`	`if not attn_metadata.use_cascade:`
`486`	`486`	`cu_seqlens_q = attn_metadata.query_start_loc`