fix modelscope

MengqingCao · MengqingCao · commit 3f3f365280b8 · 2025-05-27T03:12:17.000Z
Signed-off-by: MengqingCao &lt;cmq0113@163.com&gt;
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -357,8 +357,8 @@ def ilama_lora_files():
     return snapshot_download(repo_id="jeeejeee/ilama-text2sql-spider")
 
 
-@pytest.fixture(scope="function")
-def enable_model_scope_env():
+@pytest.fixture
+def enable_modelscope_env():
     import os
     from unittest.mock import patch
     with patch.dict(os.environ, {"VLLM_USE_MODEL_SCOPE": "TRUE"}):
diff --git a/tests/multicard/test_offline_inference_distributed.py b/tests/multicard/test_offline_inference_distributed.py
@@ -35,7 +35,7 @@
     ("deepseek-ai/DeepSeek-V2-Lite", "mp"),
 ])
 def test_models_distributed(
-    enable_model_scope_env,
+    enable_modelscope_env,
     model: str,
     distributed_executor_backend: str,
 ) -> None:
diff --git a/tests/singlecard/spec_decode/e2e/test_mtp_correctness.py b/tests/singlecard/spec_decode/e2e/test_mtp_correctness.py
@@ -94,7 +94,7 @@
 @pytest.mark.parametrize("batch_size", [1, 32])
 @pytest.mark.parametrize("seed", [1])
 def test_mtp_e2e_greedy_correctness(
-    enable_model_scope_env,
+    enable_modelscope_env,
     vllm_runner,
     common_llm_kwargs,
     per_test_common_llm_kwargs,
@@ -145,7 +145,7 @@ def test_mtp_e2e_greedy_correctness(
 @pytest.mark.parametrize("batch_size", [1, 32])
 @pytest.mark.parametrize("seed", [1])
 def test_mtp_e2e_quant_greedy_correctness(
-    enable_model_scope_env,
+    enable_modelscope_env,
     vllm_runner,
     common_llm_kwargs,
     per_test_common_llm_kwargs,
@@ -204,7 +204,7 @@ def test_mtp_e2e_quant_greedy_correctness(
 @pytest.mark.parametrize("seed", [1])
 @pytest.mark.parametrize("logprobs", [1, 6])
 def test_mtp_e2e_greedy_logprobs(
-    enable_model_scope_env,
+    enable_modelscope_env,
     vllm_runner,
     common_llm_kwargs,
     per_test_common_llm_kwargs,
@@ -263,7 +263,7 @@ def test_mtp_e2e_greedy_logprobs(
 @pytest.mark.parametrize("batch_size", [1, 32])
 @pytest.mark.parametrize("seed", [1])
 def test_mtp_e2e_greedy_correctness_torchair_graph(
-    enable_model_scope_env,
+    enable_modelscope_env,
     vllm_runner,
     common_llm_kwargs,
     per_test_common_llm_kwargs,
@@ -314,7 +314,7 @@ def test_mtp_e2e_greedy_correctness_torchair_graph(
 @pytest.mark.parametrize("batch_size", [1, 32])
 @pytest.mark.parametrize("seed", [1])
 def test_mtp_e2e_quant_greedy_correctness_torchair_graph(
-    enable_model_scope_env,
+    enable_modelscope_env,
     vllm_runner,
     common_llm_kwargs,
     per_test_common_llm_kwargs,
@@ -372,7 +372,7 @@ def test_mtp_e2e_quant_greedy_correctness_torchair_graph(
 @pytest.mark.parametrize("batch_size", [4])
 @pytest.mark.parametrize("seed", [1])
 def test_mtp_e2e_greedy_correctness_with_preemption(
-    enable_model_scope_env,
+    enable_modelscope_env,
     vllm_runner,
     common_llm_kwargs,
     per_test_common_llm_kwargs,
@@ -430,7 +430,7 @@ def test_mtp_e2e_greedy_correctness_with_preemption(
     ])
 @pytest.mark.parametrize("seed", [1])
 def test_mtp_different_k(
-    enable_model_scope_env,
+    enable_modelscope_env,
     vllm_runner,
     common_llm_kwargs,
     per_test_common_llm_kwargs,
@@ -483,7 +483,7 @@ def test_mtp_different_k(
     ])
 @pytest.mark.parametrize("seed", [1])
 def test_mtp_disable_queue(
-    enable_model_scope_env,
+    enable_modelscope_env,
     vllm_runner,
     common_llm_kwargs,
     per_test_common_llm_kwargs,
diff --git a/tests/singlecard/spec_decode/e2e/test_v1_spec_decode.py b/tests/singlecard/spec_decode/e2e/test_v1_spec_decode.py
@@ -60,7 +60,7 @@ def eagle3_model_name():
 
 
 def test_ngram_correctness(
-    enable_model_scope_env,
+    enable_modelscope_env,
     monkeypatch: pytest.MonkeyPatch,
     test_prompts: list[list[dict[str, Any]]],
     sampling_config: SamplingParams,
@@ -72,8 +72,10 @@ def test_ngram_correctness(
     '''
     with monkeypatch.context() as m:
         m.setenv("VLLM_USE_V1", "1")
+        m.setenv("VLLM_USE_MODELSCOPE", "True")
 
-        ref_llm = LLM(model=model_name, max_model_len=1024)
+        ref_llm = LLM(model="LLM-Research/Meta-Llama-3.1-8B-Instruct",
+                      max_model_len=1024)
         ref_outputs = ref_llm.chat(test_prompts, sampling_config)
         del ref_llm
 
@@ -106,7 +108,7 @@ def test_ngram_correctness(
 
 @pytest.mark.parametrize("use_eagle3", [False, True], ids=["eagle", "eagle3"])
 def test_eagle_correctness(
-    enable_model_scope_env,
+    enable_modelscope_env,
     monkeypatch: pytest.MonkeyPatch,
     test_prompts: list[list[dict[str, Any]]],
     sampling_config: SamplingParams,
diff --git a/tests/singlecard/test_offline_inference.py b/tests/singlecard/test_offline_inference.py
@@ -42,7 +42,7 @@
 @pytest.mark.parametrize("dtype", ["half", "float16"])
 @pytest.mark.parametrize("max_tokens", [5])
 def test_models(
-    enable_model_scope_env,
+    enable_modelscope_env,
     model: str,
     dtype: str,
     max_tokens: int,
@@ -66,7 +66,7 @@ def test_models(
 @pytest.mark.skipif(os.getenv("VLLM_USE_V1") == "1",
                     reason="qwen2.5_vl is not supported on v1")
 def test_multimodal(
-    enable_model_scope_env,
+    enable_modelscope_env,
     model,
     prompt_template,
     vllm_runner,