feat: Improve performance for Altlas 300I series

farawayboat · farawayboat · commit 3400df04e132 · 2025-07-03T14:13:09.000Z
Signed-off-by: Vincent Yuan &lt;farawayboat@gmail.com&gt;
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
@@ -89,10 +89,14 @@
 else:
     xgr = LazyLoader("xgr", globals(), "xgrammar")
 
+import torch_npu
 import vllm.envs as envs_vllm
 
 import vllm_ascend.envs as envs_ascend
 
+if is_310p():
+    torch_npu.npu.set_compile_mode(jit_compile=False)
+
 
 @dataclass
 class GraphCaptureContext:
@@ -1991,6 +1995,18 @@ def load_model(self) -> None:
 
         with DeviceMemoryProfiler() as m:  # noqa: SIM117
             self.model = get_model(vllm_config=self.vllm_config)
+
+            if is_310p():
+                from vllm.model_executor.layers.linear import (
+                    MergedColumnParallelLinear, QKVParallelLinear,
+                    RowParallelLinear)
+                for module in self.model.modules():
+                    if isinstance(module,
+                                  (MergedColumnParallelLinear,
+                                   QKVParallelLinear, RowParallelLinear)):
+                        module.weight.data = torch_npu.npu_format_cast(
+                            module.weight.data, ACL_FORMAT_FRACTAL_NZ)
+
             try:
                 # For version compatibility, remove this after we abort vllm v0.9.1 support
                 from vllm.model_executor.models.interfaces import \