perf: speed up topk_topp_sampler

ZhengWG · ZhengWG · commit 1346edf9e15d · 2025-05-27T22:39:47.000+08:00
diff --git a/vllm_ascend/ops/__init__.py b/vllm_ascend/ops/__init__.py
@@ -23,6 +23,7 @@
 import vllm_ascend.ops.layernorm  # noqa
 import vllm_ascend.ops.rotary_embedding  # noqa
 import vllm_ascend.ops.vocab_parallel_embedding  # noqa
+import vllm_ascend.ops.topk_topp_sampler
 
 
 class dummyFusionOp:
diff --git a/vllm_ascend/ops/topk_topp_sampler.py b/vllm_ascend/ops/topk_topp_sampler.py
@@ -0,0 +1,19 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Optional
+import torch
+from vllm.v1.sample.ops.topk_topp_sampler import TopKTopPSampler, apply_top_k_top_p_tpu, random_sample
+
+
+def forward_npu(
+    self,
+    logits: torch.Tensor,
+    generators: dict[int, torch.Generator],
+    k: Optional[torch.Tensor],
+    p: Optional[torch.Tensor],
+) -> torch.Tensor:
+    logits = apply_top_k_top_p_tpu(logits, k, p)
+    probs = logits.softmax(dim=-1, dtype=torch.float32)
+    return random_sample(probs, generators)
+
+
+TopKTopPSampler.forward_native = forward_npu