Install torchao

jainapurva · jainapurva · commit e77e5df2ab53 · 2025-10-27T13:54:25.000-07:00
diff --git a/.github/workflows/vllm-benchmark.yml b/.github/workflows/vllm-benchmark.yml
@@ -292,6 +292,9 @@ jobs:
             -w /tmp/workspace \
             "${DOCKER_IMAGE}"
           )
+          if [[ "${DEVICE_NAME}" == "cuda" ]]; then
+            docker exec -t "${container_name}" bash -c "uv pip install --system --pre torchao --index-url https://download.pytorch.org/whl/nightly/cu128"
+          fi
           docker exec -t "${container_name}" bash -c "cd vllm-benchmarks/vllm && bash .buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh"
 
       - name: Authenticate with AWS
diff --git a/vllm-benchmarks/benchmarks/cuda/latency-tests.json b/vllm-benchmarks/benchmarks/cuda/latency-tests.json
@@ -140,7 +140,7 @@
         }
     },
     {
-        "test_name": "latency_gemma3_12b_it_fp8",
+        "test_name": "latency_gemma3_12b_it_fp8_torchao",
         "parameters": {
             "model": "pytorch/gemma-3-12b-it-FP8",
             "load_format": "dummy",
@@ -149,7 +149,7 @@
         }
     },
     {
-        "test_name": "latency_gemma3_12b_it_int4",
+        "test_name": "latency_gemma3_12b_it_int4_torchao",
         "parameters": {
             "model": "pytorch/gemma-3-12b-it-INT4",
             "load_format": "dummy",
@@ -158,7 +158,7 @@
         }
     },
     {
-        "test_name": "latency_gemma3_12b_it_awq_int4",
+        "test_name": "latency_gemma3_12b_it_awq_int4_torchao",
         "parameters": {
             "model": "pytorch/gemma-3-12b-it-AWQ-INT4",
             "load_format": "dummy",
@@ -167,7 +167,7 @@
         }
     },
     {
-        "test_name": "latency_gemma3_27b_it_fp8",
+        "test_name": "latency_gemma3_27b_it_fp8_torchao",
         "parameters": {
             "model": "pytorch/gemma-3-27b-it-FP8",
             "load_format": "dummy",
@@ -176,7 +176,7 @@
         }
     },
     {
-        "test_name": "latency_gemma3_27b_it_int4",
+        "test_name": "latency_gemma3_27b_it_int4_torchao",
         "parameters": {
             "model": "pytorch/gemma-3-27b-it-INT4",
             "load_format": "dummy",
@@ -185,7 +185,7 @@
         }
     },
     {
-        "test_name": "latency_gemma3_27b_it_awq_int4",
+        "test_name": "latency_gemma3_27b_it_awq_int4_torchao",
         "parameters": {
             "model": "pytorch/gemma-3-27b-it-AWQ-INT4",
             "load_format": "dummy",
diff --git a/vllm-benchmarks/benchmarks/cuda/serving-tests.json b/vllm-benchmarks/benchmarks/cuda/serving-tests.json
@@ -552,5 +552,125 @@
             "random_input_len": 5250,
             "random_output_len": 8250
         }
+    },
+    {
+        "test_name": "serving_gemma3_12b_it_fp8_torchao",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_parameters": {
+            "model": "pytorch/gemma-3-12b-it-FP8",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "disable_log_requests": "",
+            "load_format": "dummy"
+        },
+        "client_parameters": {
+            "model": "pytorch/gemma-3-12b-it-FP8",
+            "backend": "vllm",
+            "dataset_name": "random",
+            "num_prompts": 200,
+            "random_input_len": 1024,
+            "random_output_len": 2048
+        }
+    },
+    {
+        "test_name": "serving_gemma3_12b_it_int4_torchao",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_parameters": {
+            "model": "pytorch/gemma-3-12b-it-INT4",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "disable_log_requests": "",
+            "load_format": "dummy"
+        },
+        "client_parameters": {
+            "model": "pytorch/gemma-3-12b-it-INT4",
+            "backend": "vllm",
+            "dataset_name": "random",
+            "num_prompts": 200,
+            "random_input_len": 1024,
+            "random_output_len": 2048
+        }
+    },
+    {
+        "test_name": "serving_gemma3_12b_it_awq_int4_torchao",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_parameters": {
+            "model": "pytorch/gemma-3-12b-it-AWQ-INT4",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "disable_log_requests": "",
+            "load_format": "dummy"
+        },
+        "client_parameters": {
+            "model": "pytorch/gemma-3-12b-it-AWQ-INT4",
+            "backend": "vllm",
+            "dataset_name": "random",
+            "num_prompts": 200,
+            "random_input_len": 1024,
+            "random_output_len": 2048
+        }
+    },
+    {
+        "test_name": "serving_gemma3_27b_it_fp8_torchao",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_parameters": {
+            "model": "pytorch/gemma-3-27b-it-FP8",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "disable_log_requests": "",
+            "load_format": "dummy"
+        },
+        "client_parameters": {
+            "model": "pytorch/gemma-3-27b-it-FP8",
+            "backend": "vllm",
+            "dataset_name": "random",
+            "num_prompts": 200,
+            "random_input_len": 1024,
+            "random_output_len": 2048
+        }
+    },
+    {
+        "test_name": "serving_gemma3_27b_it_int4_torchao",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_parameters": {
+            "model": "pytorch/gemma-3-27b-it-INT4",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "disable_log_requests": "",
+            "load_format": "dummy"
+        },
+        "client_parameters": {
+            "model": "pytorch/gemma-3-27b-it-INT4",
+            "backend": "vllm",
+            "dataset_name": "random",
+            "num_prompts": 200,
+            "random_input_len": 1024,
+            "random_output_len": 2048
+        }
+    },
+    {
+        "test_name": "serving_gemma3_27b_it_awq_int4_torchao",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_parameters": {
+            "model": "pytorch/gemma-3-27b-it-AWQ-INT4",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "disable_log_requests": "",
+            "load_format": "dummy"
+        },
+        "client_parameters": {
+            "model": "pytorch/gemma-3-27b-it-AWQ-INT4",
+            "backend": "vllm",
+            "dataset_name": "random",
+            "num_prompts": 200,
+            "random_input_len": 1024,
+            "random_output_len": 2048
+        }
     }
 ]
diff --git a/vllm-benchmarks/benchmarks/cuda/throughput-tests.json b/vllm-benchmarks/benchmarks/cuda/throughput-tests.json
@@ -151,5 +151,65 @@
             "backend": "vllm",
             "max_model_len": 8192
         }
+    },
+    {
+        "test_name": "throughput_gemma3_12b_it_fp8_torchao",
+        "parameters": {
+            "model": "pytorch/gemma-3-12b-it-FP8",
+            "load_format": "dummy",
+            "dataset": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "backend": "vllm"
+        }
+    },
+    {
+        "test_name": "throughput_gemma3_12b_it_int4_torchao",
+        "parameters": {
+            "model": "pytorch/gemma-3-12b-it-INT4",
+            "load_format": "dummy",
+            "dataset": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "backend": "vllm"
+        }
+    },
+    {
+        "test_name": "throughput_gemma3_12b_it_awq_int4_torchao",
+        "parameters": {
+            "model": "pytorch/gemma-3-12b-it-AWQ-INT4",
+            "load_format": "dummy",
+            "dataset": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "backend": "vllm"
+        }
+    },
+    {
+        "test_name": "throughput_gemma3_27b_it_fp8_torchao",
+        "parameters": {
+            "model": "pytorch/gemma-3-27b-it-FP8",
+            "load_format": "dummy",
+            "dataset": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "backend": "vllm"
+        }
+    },
+    {
+        "test_name": "throughput_gemma3_27b_it_int4_torchao",
+        "parameters": {
+            "model": "pytorch/gemma-3-27b-it-INT4",
+            "load_format": "dummy",
+            "dataset": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "backend": "vllm"
+        }
+    },
+    {
+        "test_name": "throughput_gemma3_27b_it_awq_int4_torchao",
+        "parameters": {
+            "model": "pytorch/gemma-3-27b-it-AWQ-INT4",
+            "load_format": "dummy",
+            "dataset": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "backend": "vllm"
+        }
     }
 ]

Original file line number	Diff line number	Diff line change
`@@ -292,6 +292,9 @@ jobs:`
`292`	`292`	`-w /tmp/workspace \`
`293`	`293`	`"${DOCKER_IMAGE}"`
`294`	`294`	`)`
	`295`	`+ if [[ "${DEVICE_NAME}" == "cuda" ]]; then`
	`296`	`+ docker exec -t "${container_name}" bash -c "uv pip install --system --pre torchao --index-url https://download.pytorch.org/whl/nightly/cu128"`
	`297`	`+ fi`
`295`	`298`	`docker exec -t "${container_name}" bash -c "cd vllm-benchmarks/vllm && bash .buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh"`
`296`	`299`
`297`	`300`	`- name: Authenticate with AWS`
Original file line number	Diff line number	Diff line change
`@@ -140,7 +140,7 @@`
`140`	`140`	`}`
`141`	`141`	`},`
`142`	`142`	`{`
`143`		`- "test_name": "latency_gemma3_12b_it_fp8",`
	`143`	`+ "test_name": "latency_gemma3_12b_it_fp8_torchao",`
`144`	`144`	`"parameters": {`
`145`	`145`	`"model": "pytorch/gemma-3-12b-it-FP8",`
`146`	`146`	`"load_format": "dummy",`
`@@ -149,7 +149,7 @@`
`149`	`149`	`}`
`150`	`150`	`},`
`151`	`151`	`{`
`152`		`- "test_name": "latency_gemma3_12b_it_int4",`
	`152`	`+ "test_name": "latency_gemma3_12b_it_int4_torchao",`
`153`	`153`	`"parameters": {`
`154`	`154`	`"model": "pytorch/gemma-3-12b-it-INT4",`
`155`	`155`	`"load_format": "dummy",`
`@@ -158,7 +158,7 @@`
`158`	`158`	`}`
`159`	`159`	`},`
`160`	`160`	`{`
`161`		`- "test_name": "latency_gemma3_12b_it_awq_int4",`
	`161`	`+ "test_name": "latency_gemma3_12b_it_awq_int4_torchao",`
`162`	`162`	`"parameters": {`
`163`	`163`	`"model": "pytorch/gemma-3-12b-it-AWQ-INT4",`
`164`	`164`	`"load_format": "dummy",`
`@@ -167,7 +167,7 @@`
`167`	`167`	`}`
`168`	`168`	`},`
`169`	`169`	`{`
`170`		`- "test_name": "latency_gemma3_27b_it_fp8",`
	`170`	`+ "test_name": "latency_gemma3_27b_it_fp8_torchao",`
`171`	`171`	`"parameters": {`
`172`	`172`	`"model": "pytorch/gemma-3-27b-it-FP8",`
`173`	`173`	`"load_format": "dummy",`
`@@ -176,7 +176,7 @@`
`176`	`176`	`}`
`177`	`177`	`},`
`178`	`178`	`{`
`179`		`- "test_name": "latency_gemma3_27b_it_int4",`
	`179`	`+ "test_name": "latency_gemma3_27b_it_int4_torchao",`
`180`	`180`	`"parameters": {`
`181`	`181`	`"model": "pytorch/gemma-3-27b-it-INT4",`
`182`	`182`	`"load_format": "dummy",`
`@@ -185,7 +185,7 @@`
`185`	`185`	`}`
`186`	`186`	`},`
`187`	`187`	`{`
`188`		`- "test_name": "latency_gemma3_27b_it_awq_int4",`
	`188`	`+ "test_name": "latency_gemma3_27b_it_awq_int4_torchao",`
`189`	`189`	`"parameters": {`
`190`	`190`	`"model": "pytorch/gemma-3-27b-it-AWQ-INT4",`
`191`	`191`	`"load_format": "dummy",`