HabanaAI
diff --git a/‎vllm/attention/layer.py‎
Lines changed: 23 additions & 13 deletions b/‎vllm/attention/layer.py‎
Lines changed: 23 additions & 13 deletions
diff --git a/‎vllm/config.py‎
Lines changed: 33 additions & 7 deletions b/‎vllm/config.py‎
Lines changed: 33 additions & 7 deletions
diff --git a/‎vllm/model_executor/layers/layernorm.py‎
Lines changed: 3 additions & 0 deletions b/‎vllm/model_executor/layers/layernorm.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎vllm/model_executor/layers/rejection_sampler.py‎
Lines changed: 14 additions & 0 deletions b/‎vllm/model_executor/layers/rejection_sampler.py‎
Lines changed: 14 additions & 0 deletions
diff --git a/‎vllm/model_executor/models/deepseek_v2.py‎
Lines changed: 20 additions & 30 deletions b/‎vllm/model_executor/models/deepseek_v2.py‎
Lines changed: 20 additions & 30 deletions
diff --git a/‎vllm/model_executor/models/interfaces_base.py‎
Lines changed: 2 additions & 5 deletions b/‎vllm/model_executor/models/interfaces_base.py‎
Lines changed: 2 additions & 5 deletions
diff --git a/‎vllm/model_executor/models/registry.py‎
Lines changed: 1 addition & 0 deletions b/‎vllm/model_executor/models/registry.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎vllm/sequence.py‎
Lines changed: 2 additions & 0 deletions b/‎vllm/sequence.py‎
Lines changed: 2 additions & 0 deletions
@@ -153,8 +153,10 @@ def forward(
         query: torch.Tensor,
         key: torch.Tensor,
         value: torch.Tensor,
-        kv_cache: torch.Tensor,
-        attn_metadata: AttentionMetadata,
+        # For some alternate attention backends like MLA the attention output
+        # shape does not match the query shape, so we optionally let the model
+        # definition specify the output tensor shape.
+        output_shape: Optional[torch.Size] = None,
     ) -> torch.Tensor:
         # NOTE: please avoid accessing `kv_cache` and `attn_metadata` arguments
         # directly, use `self.kv_cache` and
@@ -164,17 +166,25 @@ def forward(
             if ctx_attn_metadata.enable_kv_scales_calculation:
                 self.calc_kv_scales(key, value)
         if self.use_output:
-            output = torch.empty_like(query)
-            hidden_size = query.size(-1)
-            # Reshape the query, key, and value tensors.
-            # NOTE(woosuk): We do this outside the custom op to minimize the
-            # CPU overheads from the non-CUDA-graph regions.
-            query = query.view(-1, self.num_heads, self.head_size)
-            output = output.view(-1, self.num_heads, self.head_size)
-            if key is not None:
-                key = key.view(-1, self.num_kv_heads, self.head_size)
-            if value is not None:
-                value = value.view(-1, self.num_kv_heads, self.head_size)
+            output_shape = (output_shape
+                            if output_shape is not None else query.shape)
+            output = torch.empty(output_shape,
+                                 dtype=query.dtype,
+                                 device=query.device)
+            hidden_size = output_shape[-1]
+            # We skip reshaping query, key and value tensors for the MLA
+            # backend since these tensors have different semantics and are
+            # processed differently.
+            if not self.use_mla:
+                # Reshape the query, key, and value tensors.
+                # NOTE(woosuk): We do this outside the custom op to minimize the
+                # CPU overheads from the non-CUDA-graph regions.
+                query = query.view(-1, self.num_heads, self.head_size)
+                output = output.view(-1, self.num_heads, self.head_size)
+                if key is not None:
+                    key = key.view(-1, self.num_kv_heads, self.head_size)
+                if value is not None:
+                    value = value.view(-1, self.num_kv_heads, self.head_size)
             if self.use_direct_call:
                 forward_context: ForwardContext = get_forward_context()
                 ctx_attn_metadata = forward_context.attn_metadata
 
@@ -784,7 +784,7 @@ def get_hidden_size(self) -> int:
     def is_deepseek_mla(self) -> bool:
         return (hasattr(self.hf_text_config, "model_type")) \
                 and (self.hf_text_config.model_type in \
-                    ('deepseek_v2', 'deepseek_v3'))\
+                    ('deepseek_v2', 'deepseek_v3', 'deepseek_mtp'))\
                 and (self.hf_text_config.kv_lora_rank is not None)
 
     def get_head_size(self) -> int:
@@ -877,8 +877,12 @@ def get_num_attention_heads(self,
     def get_layers_start_end_indices(
             self, parallel_config: "ParallelConfig") -> Tuple[int, int]:
         from vllm.distributed.utils import get_pp_indices
-        total_num_hidden_layers = getattr(self.hf_text_config,
-                                          "num_hidden_layers", 0)
+        if self.hf_text_config.model_type == "deepseek_mtp":
+             total_num_hidden_layers = getattr(self.hf_text_config,
+                                               "num_nextn_predict_layers", 0)
+        else:
+             total_num_hidden_layers = getattr(self.hf_text_config,
+                                               "num_hidden_layers", 0)
         pp_rank = parallel_config.rank // parallel_config.tensor_parallel_size
         pp_size = parallel_config.pipeline_parallel_size
         start, end = get_pp_indices(total_num_hidden_layers, pp_rank, pp_size)
@@ -1741,6 +1745,18 @@ def compute_hash(self) -> str:
         hash_str = hashlib.md5(str(factors).encode()).hexdigest()
         return hash_str
 
+    @staticmethod
+    def hf_config_override(hf_config: PretrainedConfig) -> PretrainedConfig:
+        if hf_config.model_type == "deepseek_v3":
+            hf_config.model_type = "deepseek_mtp"
+        if hf_config.model_type == "deepseek_mtp":
+            n_predict = getattr(hf_config, "num_nextn_predict_layers", None)
+            hf_config.update({
+                "n_predict": n_predict,
+                "architectures": ["DeepSeekMTPModel"]
+            })
+        return hf_config
+
     @staticmethod
     def maybe_create_spec_config(
         target_model_config: ModelConfig,
@@ -1826,9 +1842,15 @@ def maybe_create_spec_config(
 
         if speculative_model is None:
             if num_speculative_tokens is not None:
-                raise ValueError("num_speculative_tokens was provided without "
+                if target_model_config.hf_text_config.model_type \
+                        == "deepseek_v3":
+                    # use the draft model from the same model:
+                    speculative_model = target_model_config.model
+                else:
+                    raise ValueError("num_speculative_tokens was provided without "
                                  "speculative_model.")
-            return None
+            else:
+                return None
 
         if (speculative_disable_by_batch_size is not None
                 and speculative_disable_by_batch_size < 2):
@@ -1882,6 +1904,7 @@ def maybe_create_spec_config(
                 max_seq_len_to_capture=target_model_config.
                 max_seq_len_to_capture,
                 max_logprobs=target_model_config.max_logprobs,
+                hf_overrides=SpeculativeConfig.hf_config_override,
             )
 
             draft_hf_config = draft_model_config.hf_config
@@ -2003,8 +2026,9 @@ def _verify_and_get_draft_model_tensor_parallel_size(
                 speculative_draft_tensor_parallel_size = 1
                 if target_parallel_config.tensor_parallel_size > 1:
                     logger.warning(
-                        "MLPSpeculator cannot currently be run with tp>1; "
-                        "setting speculative_draft_tensor_parallel_size=1")
+                        "%s cannot currently be run with tp>1; "
+                         "setting speculative_draft_tensor_parallel_size=1",
+                         draft_hf_config.model_type)
             else:
                 speculative_draft_tensor_parallel_size = \
                     target_parallel_config.tensor_parallel_size
@@ -2039,6 +2063,8 @@ def create_draft_parallel_config(
             ray_workers_use_nsight=target_parallel_config.
             ray_workers_use_nsight,
             placement_group=target_parallel_config.placement_group,
+            enable_expert_parallel=target_parallel_config.
+            enable_expert_parallel,
         )
 
         return draft_parallel_config
 
@@ -106,6 +106,9 @@ def forward_hpu(
         residual: Optional[torch.Tensor] = None,
     ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
         from vllm_hpu_extension.kernels import rms_norm
+        if x.dim() < 3:
+             # fix an known bug before synapse 1.21 release
+             HPUFusedRMSNorm = None
         HPUFusedRMSNorm = rms_norm()
         if HPUFusedRMSNorm is None:
             return self.forward_native(x, residual)
 
@@ -4,6 +4,7 @@
 from importlib.util import find_spec
 from typing import Dict, Optional, Tuple
 
+import os
 import torch
 import torch.jit
 
@@ -59,6 +60,10 @@ def __init__(self,
         else:
             logger.info("Use pytorch for rejection sampling.")
 
+        if os.environ.get('VLLM_MTP_PRINT_ACCPET_RATE', '1') != '0':
+            self.total_true = 0
+            self.total_false = 0
+
     def forward(
         self,
         target_with_bonus_probs: torch.Tensor,
@@ -298,6 +303,15 @@ def _get_accepted(
             torch.full((1, ), 1, device=target_probs.device))
         accepted = uniform_rand < capped_ratio
 
+        if os.environ.get('VLLM_MTP_PRINT_ACCPET_RATE', '1') != '0':
+            current_true = accepted.sum().item()
+            current_false = accepted.numel() - current_true
+            self.total_true += current_true
+            self.total_false += current_false
+            total = self.total_true + self.total_false
+            ratio_true = self.total_true / total if total != 0 else 0.0
+            print(f"Accepted ratio: {ratio_true:.2%} ({self.total_true}/{total})")
+
         return accepted
 
     def _get_recovered_probs(
 
@@ -297,8 +297,6 @@ def forward(
         self,
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
-        kv_cache: torch.Tensor,
-        attn_metadata: AttentionMetadata,
     ) -> torch.Tensor:
         if is_hpu:
             # need reshape from tensor(x0, y0) to tensor(x1) for hpu
@@ -353,7 +351,7 @@ def forward(
             q = q.reshape(_batch_size, q.shape[0] // _batch_size, q.shape[1])
             k = k.reshape(_batch_size, k.shape[0] // _batch_size, k.shape[1])
             v = v.reshape(_batch_size, v.shape[0] // _batch_size, v.shape[1])
-        attn_output = self.attn(q, k, v, kv_cache, attn_metadata)
+        attn_output = self.attn(q, k, v)
         if is_hpu:
             # need restore from tensor(x0, y0, z0) to tensor(x1, y1) for hpu
             attn_output = attn_output.reshape(
@@ -500,8 +498,6 @@ def forward(
         self,
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
-        kv_cache: torch.Tensor,
-        attn_metadata: AttentionMetadata,
     ) -> torch.Tensor:
         if self.q_lora_rank is not None:
             ckq = self.q_a_proj(hidden_states)[0]
@@ -511,8 +507,7 @@ def forward(
         kv_c, k_pe = self.kv_a_proj_with_mqa(hidden_states)[0].split(
             [self.kv_lora_rank, self.qk_rope_head_dim], dim=-1)
         kv_c_normed = self.kv_a_layernorm(kv_c.contiguous())
-        return self.mla_attn(hidden_states_or_q_c, kv_c_normed, k_pe, kv_cache,
-                             attn_metadata)
+        return self.mla_attn(hidden_states_or_q_c, kv_c_normed, k_pe, output_shape=hidden_states.shape)
 
 
 class DeepseekV2DecoderLayer(nn.Module):
@@ -581,8 +576,6 @@ def forward(
         self,
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
-        kv_cache: torch.Tensor,
-        attn_metadata: AttentionMetadata,
         residual: Optional[torch.Tensor],
     ) -> torch.Tensor:
         # Self Attention
@@ -595,8 +588,6 @@ def forward(
         hidden_states = self.self_attn(
             positions=positions,
             hidden_states=hidden_states,
-            kv_cache=kv_cache,
-            attn_metadata=attn_metadata,
         )
 
         # Fully Connected
@@ -657,8 +648,6 @@ def forward(
         self,
         input_ids: torch.Tensor,
         positions: torch.Tensor,
-        kv_caches: List[torch.Tensor],
-        attn_metadata: AttentionMetadata,
         intermediate_tensors: Optional[IntermediateTensors],
         inputs_embeds: Optional[torch.Tensor] = None,
     ) -> Union[torch.Tensor, IntermediateTensors]:
@@ -673,12 +662,8 @@ def forward(
             hidden_states = intermediate_tensors["hidden_states"]
             residual = intermediate_tensors["residual"]
 
-        for i in range(self.start_layer, self.end_layer):
-            layer = self.layers[i]
-            kvcaches = None if kv_caches is None else kv_caches[i - self.start_layer]
-            hidden_states, residual = layer(positions, hidden_states,
-                                            kvcaches,
-                                            attn_metadata, residual)
+        for layer in self.layers[self.start_layer:self.end_layer]:
+            hidden_states, residual = layer(positions, hidden_states, residual)
 
         if not get_pp_group().is_last_rank:
             return IntermediateTensors({
@@ -715,13 +700,10 @@ def forward(
         self,
         input_ids: torch.Tensor,
         positions: torch.Tensor,
-        kv_caches: List[torch.Tensor],
-        attn_metadata: AttentionMetadata,
         intermediate_tensors: Optional[IntermediateTensors] = None,
         inputs_embeds: Optional[torch.Tensor] = None,
     ) -> Union[torch.Tensor, IntermediateTensors]:
-        hidden_states = self.model(input_ids, positions, kv_caches,
-                                   attn_metadata, intermediate_tensors,
+        hidden_states = self.model(input_ids, positions, intermediate_tensors,
                                    inputs_embeds)
         return hidden_states
 
@@ -778,13 +760,9 @@ def load_weights(self, weights: Iterable[Tuple[str,
             if "rotary_emb.inv_freq" in name:
                 continue
 
-            # TODO(simon): support nextn predict layers
-            if hasattr(self.config, "num_nextn_predict_layers"
-                       ) and self.config.num_nextn_predict_layers > 0:
-                assert self.config.num_nextn_predict_layers == 1
-                layer_idx = self.config.num_hidden_layers
-                if name.startswith(f"model.layers.{layer_idx}"):
-                    continue
+            spec_layer = get_spec_layer_idx_from_weight_name(self.config, name)
+            if spec_layer is not None:
+                continue  # skip spec decode layers for main model
 
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
                 # Skip non-stacked layers and experts (experts handled below).
@@ -860,3 +838,15 @@ def load_weights(self, weights: Iterable[Tuple[str,
 
 class DeepseekV3ForCausalLM(DeepseekV2ForCausalLM):
     pass
+
+
+def get_spec_layer_idx_from_weight_name(config: PretrainedConfig,
+                                         weight_name: str) -> Optional[int]:
+     if hasattr(config,
+                "num_nextn_predict_layers") and (config.num_nextn_predict_layers
+                                                 > 0):
+         layer_idx = config.num_hidden_layers
+         for i in range(config.num_nextn_predict_layers):
+             if weight_name.startswith(f"model.layers.{layer_idx+i}."):
+                 return layer_idx + i
+     return None
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import (TYPE_CHECKING, List, Optional, Protocol, Type, Union,
+from typing import (TYPE_CHECKING, Optional, Protocol, Type, Union,
                     overload, runtime_checkable)
 
 import torch
@@ -11,7 +11,6 @@
 from vllm.utils import supports_kw
 
 if TYPE_CHECKING:
-    from vllm.attention import AttentionMetadata
     from vllm.config import VllmConfig
     from vllm.model_executor.layers.pooler import PoolerOutput
     from vllm.model_executor.layers.sampler import SamplerOutput
@@ -46,8 +45,6 @@ def forward(
         self,
         input_ids: torch.Tensor,
         positions: torch.Tensor,
-        kv_caches: List[torch.Tensor],
-        attn_metadata: "AttentionMetadata",
     ) -> T_co:
         ...
 
@@ -62,7 +59,7 @@ def _check_vllm_model_forward(model: Union[Type[object], object]) -> bool:
     if not callable(model_forward):
         return False
 
-    vllm_kws = ("input_ids", "positions", "kv_caches", "attn_metadata")
+    vllm_kws = ("input_ids", "positions")
     missing_kws = tuple(kw for kw in vllm_kws
                         if not supports_kw(model_forward, kw))
 
 
@@ -186,6 +186,7 @@
 
 _SPECULATIVE_DECODING_MODELS = {
     "EAGLEModel": ("eagle", "EAGLE"),
+    "DeepSeekMTPModel": ("deepseek_mtp", "DeepSeekMTP"),
     "MedusaModel": ("medusa", "Medusa"),
     "MLPSpeculatorPreTrainedModel": ("mlp_speculator", "MLPSpeculator"),
 }
 
@@ -1305,6 +1305,8 @@ class ExecuteModelRequest(
     previous_hidden_states: Optional[HiddenStates] = None
     # The number of forward steps to run.
     num_steps: int = 1
+    # The step index for spec model input.
+    spec_step_idx: Optional[int] = None
     # Finished request ids since last step.
     finished_requests_ids: List[str] = msgspec.field(default_factory=list)
     # The last sampled token ids for multi step decoding.
Original file line number	Diff line number	Diff line change
`@@ -186,6 +186,7 @@`
`186`	`186`
`187`	`187`	`_SPECULATIVE_DECODING_MODELS = {`
`188`	`188`	`"EAGLEModel": ("eagle", "EAGLE"),`
	`189`	`+ "DeepSeekMTPModel": ("deepseek_mtp", "DeepSeekMTP"),`
`189`	`190`	`"MedusaModel": ("medusa", "Medusa"),`
`190`	`191`	`"MLPSpeculatorPreTrainedModel": ("mlp_speculator", "MLPSpeculator"),`
`191`	`192`	`}`