rename _np_rng to _rng and add disclaimer. improve distortion in tests

h-brenoskuk · h-brenoskuk · commit adfd529f1037 · 2025-08-19T16:59:41.000+02:00
Signed-off-by: breno.skuk &lt;breno.skuk@hcompany.ai&gt;
diff --git a/tests/benchmarks/test_random_dataset.py b/tests/benchmarks/test_random_dataset.py
@@ -79,7 +79,9 @@ def test_random_dataset_same_seed(
 
     # Perturb global RNG state to ensure isolation
     random.seed(999)
+    _ = [random.random() for _ in range(100)]
     np.random.seed(888)
+    _ = [np.random.random() for _ in range(100)]
 
     b = _collect_samples(dataset_b,
                          hf_tokenizer,
diff --git a/vllm/benchmarks/datasets.py b/vllm/benchmarks/datasets.py
@@ -359,7 +359,9 @@ class RandomDataset(BenchmarkDataset):
     def __init__(self, **kwargs) -> None:
         super().__init__(**kwargs)
         # Use numpy's default_rng for deterministic sampling
-        self._np_rng = np.random.default_rng(self.random_seed)
+        # Do not use random.seed() or np.random.seed() elsewhere in this class.
+        # This ensures that the RNG is isolated from global RNG state.
+        self._rng = np.random.default_rng(self.random_seed)
 
     def sample(
         self,
@@ -408,7 +410,7 @@ def get_prefix(
         Get the prefix for the dataset.
         """
         return (
-            self._np_rng.integers(
+            self._rng.integers(
                 0, tokenizer.vocab_size, size=prefix_len).tolist()
             if prefix_len > 0
             else []
@@ -459,11 +461,11 @@ def get_sampling_params(
             output_high,
         )
 
-        input_lens = self._np_rng.integers(input_low, input_high + 1,
+        input_lens = self._rng.integers(input_low, input_high + 1,
                                            size=num_requests)
-        output_lens = self._np_rng.integers(output_low, output_high + 1,
+        output_lens = self._rng.integers(output_low, output_high + 1,
                                             size=num_requests)
-        offsets = self._np_rng.integers(0, tokenizer.vocab_size, 
+        offsets = self._rng.integers(0, tokenizer.vocab_size, 
                                         size=num_requests)
         return input_lens, output_lens, offsets
 
@@ -544,7 +546,7 @@ def __init__(self, **kwargs) -> None:
 
     def generate_synthetic_image(self, width: int, height: int) -> Image.Image:
         """Generate synthetic PIL image with random RGB values."""
-        random_pixels = self._np_rng.integers(
+        random_pixels = self._rng.integers(
             0,
             256,
             (height, width, 3),
@@ -620,12 +622,12 @@ def get_image_dimensions_iterator(
         whose size is between min_num_images and max_num_images.
         """
         request_num_images = int(
-            self._np_rng.integers(min_num_images, max_num_images + 1)
+            self._rng.integers(min_num_images, max_num_images + 1)
         )
         for _ in range(request_num_images):
             yield (
-                int(self._np_rng.integers(min_width, max_width + 1)),
-                int(self._np_rng.integers(min_height, max_height + 1)),
+                int(self._rng.integers(min_width, max_width + 1)),
+                int(self._rng.integers(min_height, max_height + 1)),
             )
 
     def sample(