vllm-project · Levi-JQ · Nov 5, 2025 · gemini-code-assist · Nov 28, 2025 · gemini-code-assist
diff --git a/vllm_ascend/ops/moe/experts_selector.py b/vllm_ascend/ops/moe/experts_selector.py
@@ -180,7 +180,9 @@ def _select_experts_with_fusion_ops(
     # NOTE: now npu_moe_gating_top_k can only support 'group_count=256' pattern
     global_redundant_expert_num = get_ascend_config().init_redundancy_expert
     is_deepseek_v3_r1 = global_num_experts - global_redundant_expert_num == 256
-    if is_deepseek_v3_r1:
+    is_kimi = global_num_experts - global_redundant_expert_num == 384
+    # NOTE: now npu_moe_gating_top_k can support `group_count=256` pattern, and `group_count=384` pattern in cann8.3
+    if is_deepseek_v3_r1 or (is_kimi and torch.version.cann.startswith("8.3")):
         topk_weights, topk_ids, _ = torch_npu.npu_moe_gating_top_k(
             router_logits,
             k=top_k,  # topk currently 8

diff --git a/vllm_ascend/torchair/ops/torchair_fused_moe.py b/vllm_ascend/torchair/ops/torchair_fused_moe.py
@@ -860,8 +860,10 @@ def apply(
         global_redundant_expert_num = get_ascend_config(
         ).init_redundancy_expert
         is_deepseek_v3_r1 = global_num_experts - global_redundant_expert_num == 256
-        # NOTE: now npu_moe_gating_top_k can only support `group_count=256` pattern
-        if is_deepseek_v3_r1:
+        is_kimi = global_num_experts - global_redundant_expert_num == 384
+        # NOTE: now npu_moe_gating_top_k can support `group_count=256` pattern, and `group_count=384` pattern in cann8.3
+        if is_deepseek_v3_r1 or (is_kimi
+                                 and torch.version.cann.startswith("8.3")):
             topk_weights, topk_ids, _ = torch_npu.npu_moe_gating_top_k(
                 router_logits,
                 k=top_k,  # topk currently is 8

diff --git a/vllm_ascend/torchair/quantization/torchair_w4a8_dynamic.py b/vllm_ascend/torchair/quantization/torchair_w4a8_dynamic.py
@@ -322,7 +322,9 @@ def apply(
         assert router_logits.shape[
             1] == global_num_experts - global_redundant_expert_num, "Number of global experts mismatch (excluding redundancy)"
 
-        if global_num_experts == 256:
+        # NOTE: now npu_moe_gating_top_k can support `group_count=256` pattern, and `group_count=384` pattern in cann8.3
+        if global_num_experts == 256 or (global_num_experts == 384 and
+                                         torch.version.cann.startswith("8.3")):
-        if global_num_experts == 256 or (global_num_experts == 384 and
-                                         torch.version.cann.startswith("8.3")):
+        if (global_num_experts - global_redundant_expert_num == 256) or \
+           ((global_num_experts - global_redundant_expert_num == 384) and torch.version.cann.startswith("8.3")):
-        if global_num_experts == 256 or (global_num_experts == 384 and
-                                         torch.version.cann.startswith("8.3")):
+        if (global_num_experts - global_redundant_expert_num == 256) or \
+           ((global_num_experts - global_redundant_expert_num == 384) and torch.version.cann.startswith("8.3")):
             topk_weights, topk_ids, _ = torch_npu.npu_moe_gating_top_k(
                 router_logits,
                 k=top_k,  # topk currently is 8

diff --git a/vllm_ascend/torchair/quantization/torchair_w8a8_dynamic.py b/vllm_ascend/torchair/quantization/torchair_w8a8_dynamic.py
@@ -939,6 +939,7 @@ def apply(
             1] == global_num_experts - global_redundant_expert_num, "Number of global experts mismatch (excluding redundancy)"
 
         is_deepseek_v3_r1 = global_num_experts - global_redundant_expert_num == 256
+        is_kimi = global_num_experts - global_redundant_expert_num == 384
 
         fused_moe_state = get_forward_context().fused_moe_state
         if self.enable_shared_expert_dp and fused_moe_state == FusedMoEState.MC2:
@@ -948,8 +949,9 @@ def apply(
         with super_kernel(prefix,
                           "stream-fusion=1",
                           enabled=running_in_super_kernel):
-            # NOTE: now npu_moe_gating_top_k can only support `group_count=256` pattern
-            if is_deepseek_v3_r1:
+            # NOTE: now npu_moe_gating_top_k can support `group_count=256` pattern, and `group_count=384` pattern in cann8.3
+            if is_deepseek_v3_r1 or (is_kimi
+                                     and torch.version.cann.startswith("8.3")):
                 topk_weights, topk_ids, _ = torch_npu.npu_moe_gating_top_k(
                     router_logits,
                     k=top_k,  # topk currently is 8