vllm-project · shen-shanshan · Apr 25, 2025
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
@@ -49,6 +49,7 @@
 from vllm.v1.outputs import EMPTY_MODEL_RUNNER_OUTPUT, ModelRunnerOutput
 from vllm.v1.utils import bind_kv_cache
 from vllm.v1.worker.gpu_input_batch import CachedRequestState, InputBatch
+from vllm.v1.sample.sampler import Sampler
 
 from vllm_ascend.attention.attention import AttentionMaskBuilder
 from vllm_ascend.attention.attention_v1 import AscendAttentionState
@@ -175,6 +176,8 @@ def __init__(self, vllm_config: VllmConfig, device: torch.device):
             scheduler_config=self.scheduler_config,
             mm_registry=self.mm_registry)
 
+        self.sampler = Sampler()
+
         # Lazy initialization
         # self.model: nn.Module  # Set after load_model
         self.kv_caches: List[torch.Tensor] = []
@@ -645,7 +648,7 @@ def execute_model(
 
         # Sample the next token and get logprobs if needed.
         sampling_metadata = self.input_batch.sampling_metadata
-        sampler_output = self.model.sample(
+        sampler_output = self.sampler(
             logits=logits,
             sampling_metadata=sampling_metadata,
         )