[feature] support pcp + mtp in full graph

zhangsicheng5 · zhangsicheng5 · commit f359b7afef3b · 2025-12-05T16:16:43.000+08:00
Signed-off-by: zhangsicheng5 &lt;zhangsicheng5@huawei.com&gt;
diff --git a/vllm_ascend/attention/mla_v1.py b/vllm_ascend/attention/mla_v1.py
@@ -433,17 +433,9 @@ def build(
                 common_attn_metadata.block_table_tensor[:graph_pad_size])
         else:
             block_table = (common_attn_metadata.block_table_tensor[:num_reqs])
-        # NOTE: Currently, MTP-fullgraph is incompatibility pcp
-        if self.pcp_size > 1:
-            num_decodes_flatten = num_decodes * self.decode_threshold
-            block_table = common_attn_metadata.block_table_tensor[:
-                                                                  num_decodes_flatten
-                                                                  +
-                                                                  num_prefills]
         if num_actual_tokens_pcp_padded is None:
             num_actual_tokens_pcp_padded = num_actual_tokens
 
-        # NOTE: Currently, MTP-fullgraph is incompatibility pcp
         slot_mapping = common_attn_metadata.slot_mapping[:
                                                          num_actual_tokens_pcp_padded]
         input_positions = common_attn_metadata.positions[:
@@ -466,6 +458,13 @@ def build(
         seq_lens = common_attn_metadata.seq_lens_cpu[:num_reqs]
         num_computed_tokens_cpu = (seq_lens - query_lens)
 
+        if self.pcp_size * self.dcp_size > 1:
+            num_decodes_flatten = query_lens[:num_decodes].sum().item()
+            block_table = common_attn_metadata.block_table_tensor[:
+                                                                  num_decodes_flatten
+                                                                  +
+                                                                  num_prefills]
+
         prefill_metadata = None
         chunked_context_metadata = None
         if num_prefills > 0:
@@ -530,8 +529,9 @@ def build(
                 if self.dcp_size * self.pcp_size > 1:
                     if num_computed_tokens_of_pcp_dcp is not None:
                         local_context_lens_allranks = torch.tensor(
-                            num_computed_tokens_of_pcp_dcp[reqs_start:num_reqs]
-                        ).reshape(-1, self.dcp_size * self.pcp_size)
+                            num_computed_tokens_of_pcp_dcp[
+                                num_decodes_flatten:]).reshape(
+                                    -1, self.dcp_size * self.pcp_size)
                     # Note(qcs): The max local context lengths
                     # padded to `cp_local_block_size`.
                     padded_local_context_lens_cpu = (cdiv(
@@ -617,7 +617,7 @@ def build(
                 cos=cos,
                 pcp_metadata=pcp_metadata,
             )
-            if self.pcp_size > 1:
+            if self.pcp_size * self.dcp_size > 1:
                 prefill_metadata.block_table = block_table[
                     num_decodes_flatten:, ...]
 
@@ -630,13 +630,12 @@ def build(
             max_seq_lens = seq_lens[:num_decodes].max().item()
             seq_lens = seq_lens[:num_decodes]
             input_positions = input_positions[:num_decode_tokens]
-            if self.pcp_size > 1:
+            if self.pcp_size * self.dcp_size > 1:
                 # For pcp + spec decode, we flatten seq_lens and block_table
                 # to avoid irregular spec_attn_mask shape
                 block_table = block_table[:num_decodes_flatten, ...]
             else:
                 block_table = block_table[:num_decodes, ...]
-            # NOTE: Currently, MTP-fullgraph is incompatibility pcp
             # NOTE: Maybe this block_table change can be removed when graph_pad_size > 1.
             if graph_pad_size > num_decodes and \
                     self.speculative_config.disable_padded_drafter_batch:
@@ -646,8 +645,7 @@ def build(
             if num_computed_tokens_of_pcp_dcp is not None:
                 # [bs, pcp_size, dcp_size]
                 num_computed_tokens_of_cp_dcp_array = np.array(
-                    num_computed_tokens_of_pcp_dcp)[:num_decodes *
-                                                    self.decode_threshold]
+                    num_computed_tokens_of_pcp_dcp)[:num_decodes_flatten]
 
                 cp_seq_len = num_computed_tokens_of_cp_dcp_array[:,
                                                                  self.pcp_rank,
@@ -1897,8 +1895,11 @@ def _forward_decode_pcp_dcp(
             "return_lse": True,
             "calc_type": "calc_type_ring",
         }
-        graph_params = get_graph_params()
         forward_context: ForwardContext = get_forward_context()
+        if forward_context.is_mtp_model:
+            graph_params = get_mtp_graph_params()
+        else:
+            graph_params = get_graph_params()
         if forward_context.capturing:
             stream = torch_npu.npu.current_stream()
             event = torch.npu.ExternalEvent()
diff --git a/vllm_ascend/compilation/acl_graph.py b/vllm_ascend/compilation/acl_graph.py
@@ -369,7 +369,10 @@ def update_attn_dcp_pcp_params(update_stream, forward_context, runtime_shape):
 
 def update_mla_attn_dcp_pcp_params(update_stream, forward_context,
                                    runtime_shape):
-    graph_params = get_graph_params()
+    if forward_context.is_mtp_model:
+        graph_params = get_mtp_graph_params()
+    else:
+        graph_params = get_graph_params()
     # FIXME: Behold! We are using a temporary hack here to update the args
     # for each layer's attention op in the graph.
     with torch.npu.stream(update_stream):
diff --git a/vllm_ascend/spec_decode/mtp_proposer.py b/vllm_ascend/spec_decode/mtp_proposer.py
@@ -29,6 +29,7 @@
 from vllm_ascend.attention.utils import AscendCommonAttentionMetadata
 from vllm_ascend.compilation.acl_graph import (ACLGraphWrapper,
                                                set_mtp_graph_params,
+                                               update_mla_attn_dcp_pcp_params,
                                                update_mla_attn_params)
 from vllm_ascend.spec_decode.interface import Proposer, SpecDcodeType
 from vllm_ascend.utils import (ProfileExecuteDuration, lmhead_tp_enable,
@@ -102,6 +103,7 @@ def __init__(
         self.pcp_size = self.runner.pcp_size
         self.dcp_size = self.runner.dcp_size
         self.pcp_rank = self.runner.pcp_rank
+        self.dcp_rank = self.runner.dcp_rank
 
         self.attn_metadata_builder: Optional[AttentionMetadataBuilder] = None
         self.draft_indexer_metadata_builder: Optional[
@@ -258,6 +260,13 @@ def dummy_run(self,
                     cos=self.runner.cos,
                     sin=self.runner.sin,
                 )
+                if self.pcp_size * self.dcp_size > 1:
+                    # update long_seq related params and flatten block_table
+                    common_attn_metadata.prefill_context_parallel_metadata=\
+                        self.runner.long_seq_metadata
+                    common_attn_metadata.block_table_tensor = \
+                        self.runner.input_batch.block_table[0].get_device_tensor()[
+                            :num_reqs * self.decode_threshold]
 
                 builder = self.runner.attn_groups[0][0].get_metadata_builder()
                 attn_metadata_mtp = builder.build_for_graph_capture(
@@ -303,9 +312,13 @@ def dummy_run(self,
                 if forward_context.cudagraph_runtime_mode == CUDAGraphMode.FULL and \
                     not forward_context.capturing:
                     if self.vllm_config.model_config.use_mla:
-                        update_mla_attn_params(
-                            self.update_stream, forward_context, num_tokens,
-                            self.vllm_config.speculative_config)
+                        if self.pcp_size * self.dcp_size > 1:
+                            update_mla_attn_dcp_pcp_params(
+                                self.update_stream, forward_context, num_tokens)
+                        else:
+                            update_mla_attn_params(
+                                self.update_stream, forward_context, num_tokens,
+                                self.vllm_config.speculative_config)
                 if self.enable_shared_expert_dp:
                     positions = torch.ops.vllm.maybe_all_gather_and_maybe_unpad(
                         positions, True)
@@ -357,7 +370,7 @@ def generate_token_ids(self,
                 )
 
         req_scheduled_tokens = scheduler_output.num_scheduled_tokens
-        if self.pcp_size > 1:
+        if self.pcp_size * self.dcp_size > 1:
             long_seq_metadata = self.runner.long_seq_metadata
             input_ids_pcp_full = self.runner.input_ids_pcp_full
             query_start_loc_pcp_full = self.runner.query_start_loc_pcp_full
@@ -393,7 +406,6 @@ def generate_token_ids(self,
                 common_attn_metadata.query_start_loc = \
                     query_start_loc_pcp_full[:num_reqs + 1]
             if self.speculative_config.disable_padded_drafter_batch:
-                # NOTE: Currently, MTP-fullgraph is incompatibility with pcp
                 token_indices_to_sample = None
                 common_attn_metadata, token_indices =\
                     self._prepare_inputs(
@@ -604,28 +616,36 @@ def _propose(
         self.input_ids[last_token_indices] = next_token_ids
 
         # update pcp related params
-        if self.pcp_size > 1:
+        if self.pcp_size * self.dcp_size > 1:
             assert long_seq_metadata is not None
             common_attn_metadata.prefill_context_parallel_metadata = long_seq_metadata
+            ori_last_token_indices = last_token_indices.cpu()
+            query_lens_d = self.runner.query_lens[:num_decode_reqs]
+        if self.pcp_size > 1:
             # 1. preprocess decode/prefill input_ids & target_hidden_states
             # decode input_ids: keep unchanged
             # decode target_hidden_states: remove padding
             # prefill input_ids: add padding and pcp split
             # prefill target_hidden_states: pcp split
-            num_tokens_d = num_decode_reqs * self.decode_threshold
+            num_tokens_d = query_lens_d.sum().item()
             num_tokens_d_padded = num_tokens_d * self.pcp_size
             input_ids_d = self.input_ids[:num_tokens_d]
             input_ids_p = self.input_ids[num_tokens_d:num_tokens]
             target_hidden_states_d_padded = \
                 target_hidden_states[:num_tokens_d_padded]
             if num_tokens_d:
                 # remove padding (from pcp all-gather) in decode part
-                target_hidden_states_d = target_hidden_states_d_padded.reshape(
-                    [
-                        num_decode_reqs, self.decode_threshold * self.pcp_size,
-                        -1
-                    ])[:, :self.decode_threshold, :].reshape(
-                        [num_tokens_d, -1])
+                mask_start_loc = torch.cat([
+                    torch.tensor([0], dtype=torch.int32),
+                    torch.cumsum(query_lens_d * self.pcp_size, dim=0)[:-1]
+                ])
+                mask_len = query_lens_d
+                mask = []
+                for req_id in range(num_decode_reqs):
+                    mask += list(
+                        range(mask_start_loc[req_id],
+                              mask_start_loc[req_id] + mask_len[req_id]))
+                target_hidden_states_d = target_hidden_states_d_padded[mask]
             else:
                 target_hidden_states_d = target_hidden_states_d_padded
             target_hidden_states_p = target_hidden_states[num_tokens_d_padded:]
@@ -755,10 +775,15 @@ def _propose(
                     forward_context = get_forward_context()
                     if forward_context.cudagraph_runtime_mode == CUDAGraphMode.FULL:
                         if self.vllm_config.model_config.use_mla:
-                            update_mla_attn_params(
-                                self.update_stream, forward_context,
-                                num_input_tokens,
-                                self.vllm_config.speculative_config)
+                            if self.pcp_size * self.dcp_size > 1:
+                                update_mla_attn_dcp_pcp_params(
+                                    self.update_stream, forward_context,
+                                    num_input_tokens)
+                            else:
+                                update_mla_attn_params(
+                                    self.update_stream, forward_context,
+                                    num_input_tokens,
+                                    self.vllm_config.speculative_config)
 
                     if self.enable_shared_expert_dp:
                         hidden_states = torch.ops.vllm.maybe_all_gather_and_maybe_unpad(
@@ -777,6 +802,8 @@ def _propose(
                     (0, max_num_reqs_across_dp - num_indices))
 
             if self.pcp_size > 1:
+                # remove graph padding before all_gather
+                hidden_states = hidden_states[:num_tokens]
                 hidden_states = get_pcp_group().all_gather(hidden_states, 0)
                 hidden_states = torch.index_select(
                     hidden_states, 0, self.runner.
@@ -808,6 +835,81 @@ def _propose(
 
             attn_metadata_i = attn_metadata[self.attn_layer_name[0]]
 
+            # TODO refactor this
+            if self.pcp_size * self.dcp_size > 1:
+                if step == 0:
+                    num_reject_tokens = torch.tensor(self.runner.cu_num_tokens_pcp_full, dtype=torch.int32) - ori_last_token_indices - 1
+                    num_accept_tokens = query_lens_d - num_reject_tokens
+                    ori_seq_len = attn_metadata_i.seq_lens
+                    mtp_slot_pad = self.runner.mtp_slot_pad
+                    # ori slot: [ -1,  -1, 134,  -1,  -1,  -1, 135,  -1, | -1,  -1, 261,  -1,  -1,  -1, 262,  -1]
+                    # mtp slot: [ -1,  -1, 134,  -1,  -1,  -1, 135,  -1, | -1,  -1, 136,  -1, | -1,  -1,  261,  -1,  -1,  -1, 262,  -1, | -1,  -1, 263,  -1]
+                    # scheduled_tokens * pcp_size + (num_speculative_tokens - 1) * pcp_size
+                    slot_idx_base = torch.cat([torch.tensor([0], dtype=torch.int32), torch.cumsum(query_lens_d, dim=0)[:-1] * self.pcp_size]) # base offset from scheduled tokens
+                    slot_idx_base += torch.arange(num_decode_reqs) * (self.num_speculative_tokens - 1) * self.pcp_size # offset from pre-allocated mtp tokens
+                    slot_idx_base += (num_accept_tokens - 1) * self.pcp_size # offset from accepted tokens
+                    slot_indices = []
+                    for req_id in range(num_decode_reqs):
+                        slot_indices += list(range(slot_idx_base[req_id], slot_idx_base[req_id] + self.pcp_size))
+                    slot_indices = torch.tensor(slot_indices, dtype=torch.int32)
+
+                    # fold block_table (restore it to original size before flattened)
+                    block_indices = torch.cat([torch.tensor([0], dtype=torch.int32), torch.cumsum(query_lens_d, dim=0)[:-1]])
+                    attn_metadata_i.decode.block_table[:batch_size] = attn_metadata_i.decode.block_table[block_indices]
+                    attn_metadata_i.decode.block_table = attn_metadata_i.decode.block_table[:batch_size]
+
+                    positions = target_positions[ori_last_token_indices]
+                    hidden_states = hidden_states[last_token_indices]
+                    last_token_indices = self.arange[:batch_size]
+                    if attn_metadata_i.num_decode_tokens != 0:
+                        attn_metadata_i.num_decode_tokens = batch_size
+
+                input_ids = draft_token_ids_list[-1].int()
+                positions += 1
+
+                if self.speculative_config.disable_padded_drafter_batch or \
+                    aclgraph_runtime_mode != CUDAGraphMode.FULL:
+                        attn_metadata_i.decode.cos = builder.cos_cache[
+                            positions[:batch_size]].unsqueeze(1).unsqueeze(2)
+                        attn_metadata_i.decode.sin = builder.sin_cache[
+                            positions[:batch_size]].unsqueeze(1).unsqueeze(2)
+                        
+                # exceeds_max_model_len
+                exceeds_max_model_len = positions[:
+                                              batch_size] >= self.runner.model_config.max_model_len
+                clamped_positions = torch.where(exceeds_max_model_len, 0,
+                                            positions[:batch_size])
+
+                # update local seq_len
+                num_computed_tokens_of_pcp_dcp = self.runner._get_cp_local_seq_lens(
+                    ori_seq_len + step + 1,
+                    self.pcp_size,
+                    self.dcp_size,
+                    self.runner.parallel_config.cp_kv_cache_interleave_size,
+                )
+                cp_seq_len = num_computed_tokens_of_pcp_dcp[:, self.pcp_rank, self.dcp_rank]
+                batch_seq_mask = (cp_seq_len == 0)
+                builder.batch_seq_mask_buf[:batch_seq_mask.shape[0]].copy_(
+                    batch_seq_mask, non_blocking=True)
+                batch_seq_mask = builder.batch_seq_mask_buf[:batch_seq_mask.
+                                                         shape[0]]
+                # batch_seq_mask = batch_seq_mask.to(self.device)
+                cp_seq_len = torch.where(cp_seq_len == 0, 1, cp_seq_len)
+                attn_metadata_i.decode.cp_seq_len = cp_seq_len
+                attn_metadata_i.decode.batch_seq_mask = batch_seq_mask
+
+                # update slot_mapping
+                slot_indices += self.pcp_size
+                slot_mapping = mtp_slot_pad[slot_indices]
+
+                self.input_ids[:batch_size] = input_ids
+                # self.positions[:batch_size] = positions[:batch_size]
+                self.positions[:batch_size] = clamped_positions
+                self.hidden_states[:hidden_states.shape[0]] = hidden_states
+                attn_metadata_i.slot_mapping[:batch_size * self.pcp_size] = slot_mapping
+
+                continue
+
             if step == 0:
                 positions = target_positions[last_token_indices]
                 hidden_states = hidden_states[last_token_indices]
diff --git a/vllm_ascend/worker/block_table.py b/vllm_ascend/worker/block_table.py
@@ -80,7 +80,7 @@ def __init__(self,
             logical_table_size = max_num_blocks_per_req
 
         duplicate_size = 1
-        if self.pcp_world_size > 1:
+        if self.pcp_world_size * self.dcp_world_size > 1:
             duplicate_size += num_speculative_tokens
         self.block_table = torch.zeros(
             (max_num_reqs * duplicate_size, logical_table_size),
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py