Add latency benchmarks for pytorch models

jainapurva · jainapurva · commit 2bc5a582f587 · 2025-10-05T22:26:53.000-07:00
diff --git a/vllm-benchmarks/benchmarks/cuda/latency-tests.json b/vllm-benchmarks/benchmarks/cuda/latency-tests.json
@@ -138,5 +138,59 @@
             "num_iters": 15,
             "max_model_len": 8192
         }
+    },
+    {
+        "test_name": "latency_gemma3_12b_it_fp8",
+        "parameters": {
+            "model": "pytorch/gemma-3-12b-it-FP8",
+            "load_format": "dummy",
+            "num_iters_warmup": 5,
+            "num_iters": 15
+        }
+    },
+    {
+        "test_name": "latency_gemma3_12b_it_int4",
+        "parameters": {
+            "model": "pytorch/gemma-3-12b-it-INT4",
+            "load_format": "dummy",
+            "num_iters_warmup": 5,
+            "num_iters": 15
+        }
+    },
+    {
+        "test_name": "latency_gemma3_12b_it_awq_int4",
+        "parameters": {
+            "model": "pytorch/gemma-3-12b-it-AWQ-INT4",
+            "load_format": "dummy",
+            "num_iters_warmup": 5,
+            "num_iters": 15
+        }
+    },
+    {
+        "test_name": "latency_gemma3_27b_it_fp8",
+        "parameters": {
+            "model": "pytorch/gemma-3-27b-it-FP8",
+            "load_format": "dummy",
+            "num_iters_warmup": 5,
+            "num_iters": 15
+        }
+    },
+    {
+        "test_name": "latency_gemma3_27b_it_int4",
+        "parameters": {
+            "model": "pytorch/gemma-3-27b-it-INT4",
+            "load_format": "dummy",
+            "num_iters_warmup": 5,
+            "num_iters": 15
+        }
+    },
+    {
+        "test_name": "latency_gemma3_27b_it_awq_int4",
+        "parameters": {
+            "model": "pytorch/gemma-3-27b-it-AWQ-INT4",
+            "load_format": "dummy",
+            "num_iters_warmup": 5,
+            "num_iters": 15
+        }
     }
 ]