Fix bugs and CI and optimize code

zzhx1 · zzhx1 · commit 341ddc9ab0a4 · 2025-08-18T20:50:36.000+08:00
Signed-off-by: zzhx1 &lt;zzh_201018@outlook.com&gt;
diff --git a/vllm_ascend/ascend_config.py b/vllm_ascend/ascend_config.py
@@ -53,17 +53,15 @@ def __init__(self, vllm_config):
         self.lmhead_tensor_parallel_size = additional_config.get(
             "lmhead_tensor_parallel_size", None)
         if self.lmhead_tensor_parallel_size is not None:
-            logger.info(f"Enable lmhead_tensor_parallel_size={self.lmhead_tensor_parallel_size} in pure DP scenario")
-            assert(
+            logger.info(
+                f"Enable lmhead_tensor_parallel_size={self.lmhead_tensor_parallel_size} in pure DP scenario"
+            )
+            assert (
                 vllm_config.parallel_config.tensor_parallel_size == 1
-            ),"lmhead_tensor_parallel_size is only supported in the pure DP scenario"
-            assert(
-                self.torchair_graph_config.enabled == True
+            ), "lmhead_tensor_parallel_size is only supported in the pure DP scenario"
+            assert (
+                self.torchair_graph_config.enabled
             ), "lmhead_tensor_parallel_size is only supported in graph mode"
-            assert(
-                vllm_config.kv_transfer_config is not None and vllm_config.kv_transfer_config.is_kv_consumer
-            ),"lmhead_tensor_parallel_size is only supported in pd scenario and can only be used in D node."
-
 
 class TorchairGraphConfig:
     """
diff --git a/vllm_ascend/distributed/parallel_state.py b/vllm_ascend/distributed/parallel_state.py
@@ -9,15 +9,18 @@
 _MC2: Optional[GroupCoordinator] = None
 _LMTP: Optional[GroupCoordinator] = None
 
+
 def get_mc2_group() -> GroupCoordinator:
     assert _MC2 is not None, ("mc2 group is not initialized")
     return _MC2
 
+
 def get_lmheadtp_group() -> GroupCoordinator:
     assert _LMTP is not None, (
         "lm head tensor parallel group is not initialized")
     return _LMTP
 
+
 def model_parallel_initialized():
     return (_MC2 is not None)
 
@@ -43,22 +46,23 @@ def init_ascend_model_parallel(parallel_config: ParallelConfig, ):
                                      get_world_group().local_rank,
                                      backend,
                                      group_name="mc2")
-    
+
     lmhead_tensor_parallel_size = parallel_config.lmhead_tensor_parallel_size
     if lmhead_tensor_parallel_size is not None:
         group_ranks = []
         global _LMTP
         num_lmhead_tensor_parallel_groups: int = (world_size //
-                                                lmhead_tensor_parallel_size)
+                                                  lmhead_tensor_parallel_size)
         for i in range(num_lmhead_tensor_parallel_groups):
             ranks = list(
                 range(i * lmhead_tensor_parallel_size,
-                    (i + 1) * lmhead_tensor_parallel_size))
+                      (i + 1) * lmhead_tensor_parallel_size))
             group_ranks.append(ranks)
         _LMTP = init_model_parallel_group(group_ranks,
-                                        get_world_group().local_rank,
-                                        backend,
-                                        group_name="lmheadtp")
+                                          get_world_group().local_rank,
+                                          backend,
+                                          group_name="lmheadtp")
+
 
 def destroy_ascend_model_parallel():
     global _MC2
diff --git a/vllm_ascend/models/deepseek_mtp.py b/vllm_ascend/models/deepseek_mtp.py
@@ -25,18 +25,20 @@
 from vllm.attention.backends.abstract import AttentionMetadata
 from vllm.config import CacheConfig, ModelConfig, VllmConfig
 from vllm.model_executor.layers.layernorm import RMSNorm
-from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.sampler import get_sampler
-from vllm.model_executor.layers.vocab_parallel_embedding import (
-    ParallelLMHead, VocabParallelEmbedding)
+from vllm.model_executor.layers.vocab_parallel_embedding import \
+    VocabParallelEmbedding
 from vllm.model_executor.models.deepseek_mtp import (
     DeepSeekMTP, DeepSeekMultiTokenPredictor, DeepSeekMultiTokenPredictorLayer,
     SharedHead)
 from vllm.model_executor.models.utils import maybe_prefix
 from vllm.model_executor.sampling_metadata import SamplingMetadata
 from vllm.sequence import IntermediateTensors
 
+from vllm_ascend.ops.vocab_parallel_embedding import (CustomLogitsProcessor,
+                                                      CustomParallelLMHead)
+
 from .deepseek_v2 import CustomDeepseekV2DecoderLayer
 
 
@@ -48,10 +50,10 @@ def __init__(self,
                  prefix: str = "") -> None:
         nn.Module.__init__(self)
         self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
-        self.head = ParallelLMHead(config.vocab_size,
-                                   config.hidden_size,
-                                   quant_config=quant_config,
-                                   prefix=maybe_prefix(prefix, "head"))
+        self.head = CustomParallelLMHead(config.vocab_size,
+                                         config.hidden_size,
+                                         quant_config=quant_config,
+                                         prefix=maybe_prefix(prefix, "head"))
 
 
 class CustomDeepSeekMultiTokenPredictorLayer(DeepSeekMultiTokenPredictorLayer):
@@ -141,7 +143,7 @@ def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
             for idx in range(self.mtp_start_layer_idx,
                              self.mtp_start_layer_idx + self.num_mtp_layers)
         ]
-        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.logits_processor = CustomLogitsProcessor(config.vocab_size)
 
     def forward(
         self,
diff --git a/vllm_ascend/models/deepseek_v2.py b/vllm_ascend/models/deepseek_v2.py
@@ -49,12 +49,11 @@
                                                ReplicatedLinear,
                                                RowParallelLinear,
                                                UnquantizedLinearMethod)
-from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.sampler import get_sampler
-from vllm.model_executor.layers.vocab_parallel_embedding import (
-    ParallelLMHead, VocabParallelEmbedding)
+from vllm.model_executor.layers.vocab_parallel_embedding import \
+    VocabParallelEmbedding
 from vllm.model_executor.model_loader.weight_utils import (
     default_weight_loader, maybe_remap_kv_scale_name)
 from vllm.model_executor.models.deepseek_v2 import \
@@ -68,14 +67,15 @@
     PPMissingLayer, is_pp_missing_parameter,
     make_empty_intermediate_tensors_factory, make_layers, maybe_prefix)
 from vllm.sequence import IntermediateTensors
-from vllm.model_executor.sampling_metadata import SamplingMetadata
 
 from vllm_ascend.ascend_config import get_ascend_config
 from vllm_ascend.ops.fused_moe import AscendFusedMoE
+from vllm_ascend.ops.vocab_parallel_embedding import (CustomLogitsProcessor,
+                                                      CustomParallelLMHead)
 from vllm_ascend.quantization.quant_config import AscendLinearMethod
 from vllm_ascend.quantization.w8a8_dynamic import AscendW8A8DynamicLinearMethod
 from vllm_ascend.utils import dispose_tensor, npu_prefetch
-from vllm_ascend.ops.vocab_parallel_embedding import CustomParallelLMHead, CustomLogitsProcessor
+
 
 class CustomDeepseekV2SiluAndMul(SiluAndMul):
 
@@ -930,7 +930,7 @@ def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
                                                 config.hidden_size,
                                                 quant_config=quant_config,
                                                 prefix=maybe_prefix(
-                                                prefix, "lm_head"))
+                                                    prefix, "lm_head"))
         else:
             self.lm_head = PPMissingLayer()
         self.logits_processor = CustomLogitsProcessor(config.vocab_size)
diff --git a/vllm_ascend/ops/vocab_parallel_embedding.py b/vllm_ascend/ops/vocab_parallel_embedding.py
@@ -19,38 +19,22 @@
 
 import torch
 from torch.nn import Module
-import torch.distributed as dist
-from torch.nn.parameter import Parameter, UninitializedParameter
-
-from vllm.distributed import (
-    divide,
-    get_tensor_model_parallel_rank,
-    get_tensor_model_parallel_world_size,
-    tensor_model_parallel_all_reduce
-)
-from vllm.model_executor.layers.vocab_parallel_embedding import (
-    VocabParallelEmbedding,
-    DEFAULT_VOCAB_PADDING_SIZE,
-    pad_vocab_size,
-    UnquantizedEmbeddingMethod,
-    ParallelLMHead
-)
+from torch.nn.parameter import Parameter
+from vllm.distributed import (divide, get_tensor_model_parallel_rank,
+                              get_tensor_model_parallel_world_size,
+                              tensor_model_parallel_all_reduce)
 from vllm.model_executor.layers.logits_processor import (
-    LogitsProcessor,
-    _apply_logits_processors,
-    _prune_hidden_states
-)
-from vllm.model_executor.parameter import BasevLLMParameter
-from vllm.model_executor.utils import set_weight_attrs, _enable_lmhead_tp
-from vllm.model_executor.sampling_metadata import SamplingMetadata
+    LogitsProcessor, _apply_logits_processors, _prune_hidden_states)
 from vllm.model_executor.layers.quantization.base_config import (
-    QuantizationConfig,
-    QuantizeMethodBase,
-    method_has_implemented_embedding
-)
+    QuantizationConfig, QuantizeMethodBase, method_has_implemented_embedding)
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, UnquantizedEmbeddingMethod,
+    VocabParallelEmbedding, pad_vocab_size)
+from vllm.model_executor.sampling_metadata import SamplingMetadata
+from vllm.model_executor.utils import set_weight_attrs
 
 from vllm_ascend.distributed.parallel_state import get_lmheadtp_group
-from vllm_ascend.ascend_config import get_ascend_config
+from vllm_ascend.utils import lmhead_tp_enable
 
 
 def get_masked_input_and_mask(
@@ -105,8 +89,7 @@ def vocab_parallel_embedding_forward(self, input_):
 
 
 class CustomParallelLMHead(ParallelLMHead):
-    
-    """Costom Parallelized LM head, added the feature of lmheadTP in pure dp scenario
+    """Custom Parallelized LM head, added the feature of lmheadTP in pure dp scenario
     
     Output logits weight matrices used in the Sampler. The weight and bias
     tensors are padded to make sure they are divisible by the number of
@@ -120,6 +103,7 @@ class CustomParallelLMHead(ParallelLMHead):
         org_num_embeddings: original vocabulary size (without LoRA).
         padding_size: padding size for the vocabulary.
     """
+
     def __init__(self,
                  num_embeddings: int,
                  embedding_dim: int,
@@ -128,16 +112,16 @@ def __init__(self,
                  org_num_embeddings: Optional[int] = None,
                  padding_size: int = DEFAULT_VOCAB_PADDING_SIZE,
                  quant_config: Optional[QuantizationConfig] = None,
-                 prefix: str = ""): 
+                 prefix: str = ""):
         Module.__init__(self)
 
-        if _enable_lmhead_tp():
+        if lmhead_tp_enable():
             tp_rank = get_lmheadtp_group().rank_in_group
             self.tp_size = get_lmheadtp_group().world_size
         else:
             tp_rank = get_tensor_model_parallel_rank()
             self.tp_size = get_tensor_model_parallel_world_size()
-        
+
         self.num_embeddings = num_embeddings
         self.padding_size = padding_size
         self.org_vocab_size = org_num_embeddings or num_embeddings
@@ -197,7 +181,7 @@ def __init__(self,
                                          self.num_embeddings_padded,
                                          params_dtype=params_dtype,
                                          weight_loader=self.weight_loader)
-        
+
         self.quant_config = quant_config
         if bias:
             self.bias = Parameter(
@@ -209,90 +193,31 @@ def __init__(self,
             })
         else:
             self.register_parameter("bias", None)
-        
+
+
 class CustomLogitsProcessor(LogitsProcessor):
     """Custom logits processor extending base LogitsProcessor functionality.
     Added the feature of lmheadTP in pure dp scenario
     """
-    
-    def __init__(self,
-                 vocab_size: int,
-                 org_vocab_size: Optional[int] = None,
-                 scale: float = 1.0,
-                 logits_as_input: bool = False,
-                 soft_cap: Optional[float] = None) -> None:
-        super().__init__(
-            vocab_size=vocab_size,
-            org_vocab_size=org_vocab_size,
-            scale=scale,
-            logits_as_input=logits_as_input,
-            soft_cap=soft_cap
-        )
-
-    def forward(
+    def _get_logits(
         self,
-        lm_head: CustomParallelLMHead,
         hidden_states: torch.Tensor,
-        sampling_metadata: Optional[SamplingMetadata] = None,
-        embedding_bias: Optional[torch.Tensor] = None,
+        lm_head: CustomParallelLMHead,
+        embedding_bias: Optional[torch.Tensor],
     ) -> Optional[torch.Tensor]:
-        if self.logits_as_input:
-            logits = hidden_states
-        else:
-            if sampling_metadata is not None:
-                hidden_states = _prune_hidden_states(hidden_states,
-                                                     sampling_metadata)
-
-            # Get the logits for the next tokens.
-            logits = self._get_logits(hidden_states, lm_head, embedding_bias)
-        if logits is not None:
-            if self.soft_cap is not None:
-                logits = logits / self.soft_cap
-                logits = torch.tanh(logits)
-                logits = logits * self.soft_cap
-
-            if self.scale != 1.0:
-                logits *= self.scale
 
-            # Apply logits processors (if any).
-            if sampling_metadata is not None and \
-                sampling_metadata.seq_groups is not None:
-                logits = _apply_logits_processors(logits, sampling_metadata)
-        
-        return logits
-
-    def _get_logits(
-            self,
-            hidden_states: torch.Tensor,
-            lm_head: CustomParallelLMHead,
-            embedding_bias: Optional[torch.Tensor],
-        ) -> Optional[torch.Tensor]:
-        """
-        Compute logits for next token prediction using parallel processing.
-        
-        Args:
-            hidden_states: Current hidden states from the model with shape [batch_size, hidden_size]
-            lm_head: Parallel embedding layer for vocabulary predictions
-            embedding_bias: Optional bias tensor to add to logits with shape [vocab_size]
-            
-        Returns:
-            Logits tensor for next token prediction with shape [batch_size, vocab_size] or None
-        """
-
-        if _enable_lmhead_tp():
+        if lmhead_tp_enable():
             # Gather hidden states from all devices in tensor parallel group
-            gathered_hidden_states = get_lmheadtp_group().all_gather(hidden_states, dim=0)
+            gathered_hidden_states = get_lmheadtp_group().all_gather(
+                hidden_states, dim=0)
         else:
             gathered_hidden_states = hidden_states
 
-        # Compute logits using quantized matrix multiplication
-        local_logits = lm_head.quant_method.apply(
-            lm_head,
-            gathered_hidden_states,
-            bias=embedding_bias
-        )
+        local_logits = lm_head.quant_method.apply(lm_head,
+                                                  gathered_hidden_states,
+                                                  bias=embedding_bias)
 
-        if _enable_lmhead_tp():
+        if lmhead_tp_enable():
             logits = get_lmheadtp_group().all_to_all(local_logits)
         else:
             # Gather logits for tensor parallel
@@ -301,6 +226,5 @@ def _get_logits(
         # Remove paddings in vocab (if any)
         if logits is not None:
             logits = logits[..., :self.org_vocab_size]
-            
+
         return logits
-    
diff --git a/vllm_ascend/platform.py b/vllm_ascend/platform.py
@@ -134,8 +134,7 @@ def check_and_update_config(cls, vllm_config: VllmConfig) -> None:
         if parallel_config:
             # assign lmhead tensor parallel size
             parallel_config.lmhead_tensor_parallel_size = (
-                ascend_config.lmhead_tensor_parallel_size
-            )
+                ascend_config.lmhead_tensor_parallel_size)
 
         if model_config is None:
             logger.warning("Model config is missing. This may indicate "
diff --git a/vllm_ascend/torchair/torchair_model_runner.py b/vllm_ascend/torchair/torchair_model_runner.py
@@ -120,7 +120,7 @@ def _generate_dummy_run_hidden_states(self, with_prefill,
             hidden_states = super()._generate_dummy_run_hidden_states(
                 with_prefill, is_torchair_compile, input_ids, positions,
                 attn_metadata, num_tokens, intermediate_tensors, inputs_embeds)
-            if not self.in_profile_run and self._enable_lmhead_tp():
+            if not self.in_profile_run and self.lmhead_tp_enable():
                 # lmhead_tp introduces additional communication across
                 # dp when computing logits. Hence we need to add it
                 # in profile_run.
diff --git a/vllm_ascend/utils.py b/vllm_ascend/utils.py
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
diff --git a/vllm_ascend/worker/mtp_proposer_v1.py b/vllm_ascend/worker/mtp_proposer_v1.py