[Benchmark][Bug] Fix multiple bugs in bench and add args to spec_decode offline (vllm-project#20083)

ekagra-ranjan · web-flow · commit 57080e3e2d19 · 2025-06-25T22:06:27.000-07:00
diff --git a/datasets.py b/datasets.py
@@ -320,6 +320,8 @@ def __init__(
         **kwargs,
     ) -> None:
         super().__init__(**kwargs)
+        random.seed(self.random_seed)
+        np.random.seed(self.random_seed)
 
     def sample(
         self,
@@ -376,10 +378,11 @@ def sample(
             # [1650, 939, 486] -> ['Ġcall', 'sh', 'ere']
             # To avoid uncontrolled change of the prompt length,
             # the encoded sequence is truncated before being decode again.
+            total_input_len = prefix_len + int(input_lens[i])
             re_encoded_sequence = tokenizer.encode(
-                prompt, add_special_tokens=False)[:input_lens[i]]
+                prompt, add_special_tokens=False)[:total_input_len]
             prompt = tokenizer.decode(re_encoded_sequence)
-            total_input_len = prefix_len + int(input_lens[i])
+            total_input_len = len(re_encoded_sequence)
             requests.append(
                 SampleRequest(
                     prompt=prompt,
@@ -692,7 +695,8 @@ def get_samples(args, tokenizer) -> list[SampleRequest]:
                                     dataset_path=args.dataset_path).
             sample(tokenizer=tokenizer, num_requests=args.num_prompts),
             "random":
-            lambda: RandomDataset(dataset_path=args.dataset_path).sample(
+            lambda: RandomDataset(random_seed=args.seed,
+                                  dataset_path=args.dataset_path).sample(
                 tokenizer=tokenizer,
                 num_requests=args.num_prompts,
                 prefix_len=args.random_prefix_len,
diff --git a/serve.py b/serve.py
@@ -631,6 +631,12 @@ def add_cli_args(parser: argparse.ArgumentParser):
         help="The label (prefix) of the benchmark results. If not specified, "
         "the endpoint type will be used as the label.",
     )
+    parser.add_argument(
+        "--backend",
+        type=str,
+        default="vllm",
+        choices=list(ASYNC_REQUEST_FUNCS.keys()),
+    )
     parser.add_argument(
         "--base-url",
         type=str,