wip

juliendenize · juliendenize · commit 54d929d6c2ce · 2025-11-01T07:22:39.000+01:00
Signed-off-by: Julien Denize &lt;julien.denize@mistral.ai&gt;
diff --git a/tests/models/language/generation/test_mistral.py b/tests/models/language/generation/test_mistral.py
@@ -208,7 +208,7 @@ def test_mistral_format(
     with vllm_runner(
         model,
         dtype=dtype,
-        tokenizer_mode="auto",
+        tokenizer_mode="hf",
         load_format="safetensors",
         config_format="hf",
     ) as hf_format_model:
diff --git a/tests/models/quantization/test_bitsandbytes.py b/tests/models/quantization/test_bitsandbytes.py
@@ -155,6 +155,7 @@ def test_4bit_bnb_moe_model(
         quantization="bitsandbytes",
         enforce_eager=False,
         default_torch_num_threads=1,
+        tokenizer_mode="hf",
     ) as llm:
         vllm_outputs = llm.generate_greedy_logprobs(
             example_prompts, max_tokens=32, num_logprobs=5
@@ -204,6 +205,7 @@ def test_4bit_bnb_embedding_model(
         gpu_memory_utilization=0.5,
         quantization="bitsandbytes",
         default_torch_num_threads=1,
+        tokenizer_mode="hf",
     ) as vllm_model:
         vllm_outputs = vllm_model.embed(example_prompts)
 
@@ -256,6 +258,7 @@ def validate_generated_texts(
         tensor_parallel_size=vllm_tp_size,
         enforce_eager=False,
         default_torch_num_threads=1,
+        tokenizer_mode="hf",
     ) as llm:
         vllm_outputs = llm.generate_greedy(prompts, max_tokens)
         vllm_logs = log_generated_texts(prompts, vllm_outputs, "VllmRunner")
diff --git a/vllm/config/model.py b/vllm/config/model.py
@@ -128,7 +128,8 @@ class ModelConfig:
     name or path will be used."""
     tokenizer_mode: TokenizerMode = "auto"
     """Tokenizer mode:\n
-    - "auto" will use the fast tokenizer if available.\n
+    - "auto" will use "hf" tokenizer if Mistral's tokenizer is not available.\n
+    - "hf" will use the fast tokenizer if available.\n
     - "slow" will always use the slow tokenizer.\n
     - "mistral" will always use the tokenizer from `mistral_common`.\n
     - "custom" will use --tokenizer to select the preregistered tokenizer."""
diff --git a/vllm/model_executor/model_loader/default_loader.py b/vllm/model_executor/model_loader/default_loader.py
@@ -108,11 +108,11 @@ def _prepare_weights(
                     )
                 )
                 > 0
-                else "auto"
+                else "hf"
             )
 
         # Some quantized models use .pt files for storing the weights.
-        if load_format in ["auto", "hf"]:
+        if load_format in "hf":
             allow_patterns = ["*.safetensors", "*.bin"]
         elif load_format == "safetensors" or load_format == "fastsafetensors":
             use_safetensors = True

Original file line number	Diff line number	Diff line change
`@@ -108,11 +108,11 @@ def _prepare_weights(`
`108`	`108`	`)`
`109`	`109`	`)`
`110`	`110`	`> 0`
`111`		`- else "auto"`
	`111`	`+ else "hf"`
`112`	`112`	`)`
`113`	`113`
`114`	`114`	`# Some quantized models use .pt files for storing the weights.`
`115`		`- if load_format in ["auto", "hf"]:`
	`115`	`+ if load_format in "hf":`
`116`	`116`	`allow_patterns = [".safetensors", ".bin"]`
`117`	`117`	`elif load_format == "safetensors" or load_format == "fastsafetensors":`
`118`	`118`	`use_safetensors = True`