[Fix] Correct minor formatting issues

yiz-liu · yiz-liu · commit 28ce6eeae1af · 2025-04-22T15:10:05.000+08:00
Signed-off-by: Yizhou Liu &lt;liu_yizhou@outlook.com&gt;
diff --git a/Dockerfile b/Dockerfile
@@ -51,7 +51,8 @@ RUN source /usr/local/Ascend/ascend-toolkit/set_env.sh && \
     source /usr/local/Ascend/nnal/atb/set_env.sh && \
     export LD_LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/`uname -i`-linux/devlib:$LD_LIBRARY_PATH && \
     export LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/lib64:$LIBRARY_PATH && \
-    python3 -m pip install -v /workspace/vllm-ascend/ --extra-index https://download.pytorch.org/whl/cpu/
+    python3 -m pip install -r /workspace/vllm-ascend/requirements.txt && \
+    python3 -m pip install -v --no-build-isolation /workspace/vllm-ascend/ --extra-index https://download.pytorch.org/whl/cpu/
 
 # Install modelscope (for fast download) and ray (for multinode)
 RUN python3 -m pip install modelscope ray
diff --git a/Dockerfile.openEuler b/Dockerfile.openEuler
@@ -50,7 +50,8 @@ RUN source /usr/local/Ascend/ascend-toolkit/set_env.sh && \
     source /usr/local/Ascend/nnal/atb/set_env.sh && \
     export LD_LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/`uname -i`-linux/devlib:$LD_LIBRARY_PATH && \
     export LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/lib64:$LIBRARY_PATH && \
-    python3 -m pip install -v /workspace/vllm-ascend/ --extra-index https://download.pytorch.org/whl/cpu/
+    python3 -m pip install -r /workspace/vllm-ascend/requirements.txt && \
+    python3 -m pip install --no-build-isolation -v /workspace/vllm-ascend/ --extra-index https://download.pytorch.org/whl/cpu/
 
 # Install modelscope (for fast download) and ray (for multinode)
 RUN python3 -m pip install modelscope ray
diff --git a/tests/compile/test_simple.py b/tests/compile/test_simple.py
@@ -13,7 +13,6 @@
                          set_current_vllm_config)
 from vllm.utils import direct_register_custom_op
 
-
 global_counter = 0
 
 # create a library to hold the custom op
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -36,9 +36,11 @@
 # TODO: remove this part after the patch merged into vllm, if
 # we not explicitly patch here, some of them might be effectiveless
 # in pytest scenario
-from vllm_ascend.utils import adapt_patch  # noqa E402
+from vllm_ascend.utils import (adapt_patch,  # noqa E402
+                               register_dummy_fusion_op)
 
 adapt_patch(True)
+register_dummy_fusion_op()
 
 from vllm.distributed.parallel_state import (  # noqa E402
     destroy_distributed_environment, destroy_model_parallel)
diff --git a/vllm_ascend/ops/__init__.py b/vllm_ascend/ops/__init__.py
@@ -15,38 +15,8 @@
 # This file is a part of the vllm-ascend project.
 #
 
-import torch
-import torch_npu
-
 import vllm_ascend.ops.activation  # noqa
 import vllm_ascend.ops.fused_moe  # noqa
 import vllm_ascend.ops.layernorm  # noqa
 import vllm_ascend.ops.rotary_embedding  # noqa
 import vllm_ascend.ops.vocab_parallel_embedding  # noqa
-
-
-class dummyFusionOp:
-    default = None
-
-    def __init__(self, name=""):
-        self.name = name
-
-
-def register_dummy_fusion_op() -> None:
-    torch.cuda.CUDAGraph = torch_npu.npu.NPUGraph
-    torch.ops._C.rms_norm = dummyFusionOp(name="rms_norm")
-    torch.ops._C.fused_add_rms_norm = dummyFusionOp(name="fused_add_rms_norm")
-    torch.ops._C.static_scaled_fp8_quant = dummyFusionOp(
-        name="static_scaled_fp8_quant")
-    torch.ops._C.dynamic_scaled_fp8_quant = dummyFusionOp(
-        name="dynamic_scaled_fp8_quant")
-    torch.ops._C.dynamic_per_token_scaled_fp8_quant = dummyFusionOp(
-        name="dynamic_per_token_scaled_fp8_quant")
-    torch.ops._C.rms_norm_static_fp8_quant = dummyFusionOp(
-        name="rms_norm_static_fp8_quant")
-    torch.ops._C.fused_add_rms_norm_static_fp8_quant = dummyFusionOp(
-        name="fused_add_rms_norm_static_fp8_quant")
-    torch.ops._C.rms_norm_dynamic_per_token_quant = dummyFusionOp(
-        name="rms_norm_dynamic_per_token_quant")
-    torch.ops._C.rms_norm_dynamic_per_token_quant = dummyFusionOp(
-        name="rms_norm_dynamic_per_token_quant")
diff --git a/vllm_ascend/platform.py b/vllm_ascend/platform.py
@@ -22,10 +22,11 @@
 import torch
 import torch_npu  # noqa: F401
 import vllm.envs as envs
+from torch_npu.op_plugin.atb._atb_ops import _register_atb_extensions
 from vllm.logger import logger
 from vllm.platforms import Platform, PlatformEnum
-from vllm_ascend.ops import register_dummy_fusion_op
-from torch_npu.op_plugin.atb._atb_ops import _register_atb_extensions
+
+from vllm_ascend.utils import register_dummy_fusion_op
 
 CUSTOM_OP_ENABLED = False
 try:
@@ -76,6 +77,8 @@ def pre_register_and_update(cls,
         from vllm_ascend.utils import adapt_patch
         adapt_patch(is_global_patch=True)
 
+        register_dummy_fusion_op()
+
         from vllm_ascend.quantization.quant_config import \
             AscendQuantConfig  # noqa: F401
 
@@ -115,7 +118,7 @@ def mem_get_info(cls) -> Tuple[int, int]:
     def check_and_update_config(cls, vllm_config: VllmConfig) -> None:
         from vllm.config import CompilationLevel  # noqa: E402
         compilation_config = vllm_config.compilation_config
-        register_dummy_fusion_op()
+
         enforce_eager_flag = False
         # Check whether the eager mode is configured
         try:
diff --git a/vllm_ascend/utils.py b/vllm_ascend/utils.py
@@ -28,6 +28,31 @@
 VLLM_ENABLE_GRAPH_MODE = os.environ.get('VLLM_ENABLE_GRAPH_MODE', '0')
 
 
+class dummyFusionOp:
+    default = None
+
+    def __init__(self, name=""):
+        self.name = name
+
+
+def register_dummy_fusion_op() -> None:
+    torch.cuda.CUDAGraph = torch_npu.npu.NPUGraph
+    torch.ops._C.rms_norm = dummyFusionOp(name="rms_norm")
+    torch.ops._C.fused_add_rms_norm = dummyFusionOp(name="fused_add_rms_norm")
+    torch.ops._C.static_scaled_fp8_quant = dummyFusionOp(
+        name="static_scaled_fp8_quant")
+    torch.ops._C.dynamic_scaled_fp8_quant = dummyFusionOp(
+        name="dynamic_scaled_fp8_quant")
+    torch.ops._C.dynamic_per_token_scaled_fp8_quant = dummyFusionOp(
+        name="dynamic_per_token_scaled_fp8_quant")
+    torch.ops._C.rms_norm_static_fp8_quant = dummyFusionOp(
+        name="rms_norm_static_fp8_quant")
+    torch.ops._C.fused_add_rms_norm_static_fp8_quant = dummyFusionOp(
+        name="fused_add_rms_norm_static_fp8_quant")
+    torch.ops._C.rms_norm_dynamic_per_token_quant = dummyFusionOp(
+        name="rms_norm_dynamic_per_token_quant")
+
+
 def try_register_lib(lib_name: str, lib_info: str = ""):
     import importlib
     import importlib.util