[Benchmarks] Fix imports in FP8 tuning script (#26407)

lgeiger · web-flow · commit 6273fe8d3d72 · 2025-10-08T16:31:59.000Z
Signed-off-by: Lukas Geiger &lt;lukas.geiger94@gmail.com&gt;
diff --git a/benchmarks/kernels/benchmark_w8a8_block_fp8.py b/benchmarks/kernels/benchmark_w8a8_block_fp8.py
@@ -14,7 +14,7 @@
 from tqdm import tqdm
 
 from vllm.model_executor.layers.quantization.utils.fp8_utils import (
-    _w8a8_block_fp8_matmul,
+    _w8a8_triton_block_scaled_mm,
 )
 from vllm.platforms import current_platform
 from vllm.triton_utils import triton
@@ -83,7 +83,7 @@ def grid(META):
         )
 
     if A.dtype == torch.float8_e4m3fn:
-        kernel = _w8a8_block_fp8_matmul
+        kernel = _w8a8_triton_block_scaled_mm
     else:
         raise RuntimeError("Currently, only support tune w8a8 block fp8 kernel.")
 

Original file line number	Diff line number	Diff line change
`@@ -14,7 +14,7 @@`
`14`	`14`	`from tqdm import tqdm`
`15`	`15`
`16`	`16`	`from vllm.model_executor.layers.quantization.utils.fp8_utils import (`
`17`		`- _w8a8_block_fp8_matmul,`
	`17`	`+ _w8a8_triton_block_scaled_mm,`
`18`	`18`	`)`
`19`	`19`	`from vllm.platforms import current_platform`
`20`	`20`	`from vllm.triton_utils import triton`
`@@ -83,7 +83,7 @@ def grid(META):`
`83`	`83`	`)`
`84`	`84`
`85`	`85`	`if A.dtype == torch.float8_e4m3fn:`
`86`		`- kernel = _w8a8_block_fp8_matmul`
	`86`	`+ kernel = _w8a8_triton_block_scaled_mm`
`87`	`87`	`else:`
`88`	`88`	`raise RuntimeError("Currently, only support tune w8a8 block fp8 kernel.")`
`89`	`89`