feat: add SCV mode scaffolding

yuz207 · yuz207 · commit 48e0ea7f526d · 2025-10-14T22:47:47.000Z
diff --git a/vllm/envs.py b/vllm/envs.py
@@ -200,6 +200,7 @@
     VLLM_DISABLE_PAD_FOR_CUDAGRAPH: bool = False
     VLLM_DISABLE_NWOR: bool = False
     VLLM_NWOR_MODE: str = "stage"
+    VLLM_SCV_MODE: str = "off"
     VLLM_GPT_OSS_HARMONY_SYSTEM_INSTRUCTIONS: bool = False
     VLLM_CUSTOM_SCOPES_FOR_PROFILING: bool = False
     VLLM_NVTX_SCOPES_FOR_PROFILING: bool = False
@@ -1315,6 +1316,8 @@ def get_vllm_port() -> int | None:
     "VLLM_DISABLE_NWOR": lambda: bool(int(os.getenv("VLLM_DISABLE_NWOR", "0"))),
     # Select NWOR mode: "stage" (default) or "immediate" to bypass staging.
     "VLLM_NWOR_MODE": lambda: os.getenv("VLLM_NWOR_MODE", "stage"),
+    # Speculative chunk verify mode: "off" (default), "graph", or "adaptive".
+    "VLLM_SCV_MODE": lambda: os.getenv("VLLM_SCV_MODE", "off"),
     # Used to force set up loopback IP
     "VLLM_LOOPBACK_IP": lambda: os.getenv("VLLM_LOOPBACK_IP", ""),
     # Used to set the process name prefix for vLLM processes.
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
@@ -509,6 +509,13 @@ def __init__(
         # Cached outputs.
         self._deferred_write_manager = DeferredWriteManager(mode=envs.VLLM_NWOR_MODE)
         self._latest_nwor_window_metrics: dict[str, int | str] | None = None
+        self._scv_mode = envs.VLLM_SCV_MODE.lower()
+
+    def _scv_enabled(self) -> bool:
+        if self._scv_mode not in ("off", "graph", "adaptive"):
+            logger.warning("SCV: unsupported mode '%s', disabling.", self._scv_mode)
+            self._scv_mode = "off"
+        return self._scv_mode != "off"
         self._draft_token_ids: list[list[int]] | torch.Tensor | None = None
         self.transfer_event = torch.cuda.Event()
         self.sampled_token_ids_pinned_cpu = torch.empty(