vllm-project · vllm-bot · Jul 24, 2025 · Jul 23, 2025 · Jul 23, 2025 · gemini-code-assist
@@ -20,7 +20,7 @@
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("glm4_moe")
+@ToolParserManager.register_module("glm45")
 class Glm4MoeModelToolParser(ToolParser):
 
     def __init__(self, tokenizer: AnyTokenizer):

diff --git a/vllm/model_executor/models/glm4_moe.py b/vllm/model_executor/models/glm4_moe.py
@@ -390,7 +390,6 @@ def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
             self.embed_tokens = VocabParallelEmbedding(
                 config.vocab_size,
                 config.hidden_size,
-                quant_config=quant_config,
                 prefix=f"{prefix}.embed_tokens")
         else:
             self.embed_tokens = PPMissingLayer()

@@ -14,7 +14,7 @@
 logger = init_logger(__name__)
 
 
-@ReasoningParserManager.register_module("glm4_moe")
+@ReasoningParserManager.register_module("glm45")
 class Glm4MoeModelReasoningParser(ReasoningParser):
     """
     Reasoning parser for the Glm4MoeModel model.