solve precision synchronization

LCAIZJ · LCAIZJ · commit 524d7b053889 · 2025-11-29T23:24:15.000+08:00
Co-authored-by: baxingpiaochong &lt;771405853@qq.com&gt;

Signed-off-by: LCAIZJ &lt;leichao139636@163.com&gt;
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
@@ -2339,7 +2339,6 @@ def execute_model(
                     attn_metadata, self.with_prefill, maybe_padded_num_tokens,
                     input_ids, positions, intermediate_tensors, inputs_embeds)
 
-            self.maybe_wait_for_kv_save()
             finished_sending, finished_recving = self.get_finished_kv_transfer(
                 scheduler_output)
 
@@ -2603,7 +2602,7 @@ def propose_draft_token_ids(sampled_token_ids):
                     # ngram and other speculative decoding methods use the sampled
                     # tokens on the CPU, so they are run after bookkeeping.
                     propose_draft_token_ids(valid_sampled_token_ids)
-
+            self.maybe_wait_for_kv_save()
             if has_kv_transfer_group():
                 get_kv_transfer_group().clear_connector_metadata()