add verify load_format in vllmconfig

lengrongfu · lengrongfu · commit b26328d88dcb · 2025-09-17T01:01:05.000-07:00
Signed-off-by: rongfu.leng &lt;rongfu.leng@daocloud.io&gt;
diff --git a/tests/engine/test_arg_utils.py b/tests/engine/test_arg_utils.py
@@ -332,24 +332,3 @@ def test_human_readable_model_len():
     for invalid in ["1a", "pwd", "10.24", "1.23M"]:
         with pytest.raises(ArgumentError):
             args = parser.parse_args(["--max-model-len", invalid])
-
-
-def test_load_format():
-    args = EngineArgs(model="s3://model/Qwen/Qwen3-0.6B")
-    args.create_model_config()
-    assert args.load_format == "runai_streamer"
-
-    args = EngineArgs(model="s3://model/Qwen/Qwen3-0.6B",
-                      load_format="runai_streamer")
-    args.create_model_config()
-    assert args.load_format == "runai_streamer"
-
-    try:
-        args = EngineArgs(model="s3://model/Qwen/Qwen3-0.6B",
-                          load_format="gguf")
-        args.create_model_config()
-    except Exception as e:
-        assert isinstance(e, ValueError)
-        assert str(e) == ("To load a model from S3, "
-                          "'load_format' must be 'runai_streamer', "
-                          "but got 'gguf'. Model: s3://model/Qwen/Qwen3-0.6B")
diff --git a/vllm/config/__init__.py b/vllm/config/__init__.py
@@ -3025,6 +3025,16 @@ def try_verify_and_update_config(self):
                 SequenceClassificationConfig)
             SequenceClassificationConfig.verify_and_update_config(self)
 
+        if hasattr(self.model_config, "model_weights") and is_runai_obj_uri(
+                self.model_config.model_weights):
+            if self.load_config.load_format == "auto":
+                self.load_config.load_format = "runai_streamer"
+            elif self.load_config.load_format != "runai_streamer":
+                raise ValueError(f"To load a model from S3, 'load_format' "
+                                 f"must be 'runai_streamer', "
+                                 f"but got '{self.load_config.load_format}'. "
+                                 f"Model: {self.model_config.model}")
+
     def __str__(self):
         return (
             f"model={self.model_config.model!r}, "
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
@@ -43,7 +43,7 @@
 from vllm.reasoning import ReasoningParserManager
 from vllm.test_utils import MODEL_WEIGHTS_S3_BUCKET, MODELS_ON_S3
 from vllm.transformers_utils.config import get_model_path, is_interleaved
-from vllm.transformers_utils.utils import check_gguf_file, is_s3
+from vllm.transformers_utils.utils import check_gguf_file
 from vllm.utils import (STR_DUAL_CHUNK_FLASH_ATTN_VAL, FlexibleArgumentParser,
                         GiB_bytes, get_ip, is_in_ray_actor)
 from vllm.v1.sample.logits_processor import LogitsProcessor
@@ -491,6 +491,7 @@ def __post_init__(self):
         # Setup plugins
         from vllm.plugins import load_general_plugins
         load_general_plugins()
+        # when use hf offline,replace model id to local model path
         if huggingface_hub.constants.HF_HUB_OFFLINE:
             model_id = self.model
             self.model = get_model_path(self.model, self.revision)
@@ -959,14 +960,6 @@ def create_model_config(self) -> ModelConfig:
                 and self.model in MODELS_ON_S3 and self.load_format == "auto"):
             self.model = f"{MODEL_WEIGHTS_S3_BUCKET}/{self.model}"
 
-        if is_s3(self.model):
-            if self.load_format == "auto":
-                self.load_format = "runai_streamer"
-            elif self.load_format != "runai_streamer":
-                raise ValueError(
-                    f"To load a model from S3, 'load_format' "
-                    f"must be 'runai_streamer', "
-                    f"but got '{self.load_format}'. Model: {self.model}")
         if self.disable_mm_preprocessor_cache:
             logger.warning(
                 "`--disable-mm-preprocessor-cache` is deprecated "