ensure importance sampling on

jiemingz · root · commit 32ada2103c9d · 2025-07-21T12:54:59.000-07:00
Signed-off-by: Jimmy Zhang &lt;jiemingz@nvidia.com&gt;
diff --git a/nemo_rl/algorithms/grpo.py b/nemo_rl/algorithms/grpo.py
@@ -309,6 +309,11 @@ def setup(
         )
     elif backend == "vllm":
         generation_config = cast(VllmConfig, generation_config)
+        if generation_config["vllm_cfg"]["precision"] == "fp8":
+            assert loss_config["use_importance_sampling_correction"] is True, (
+                "Importance sampling must be enabled for vLLM FP8 generation!"
+            )
+
         policy_generation = VllmGeneration(
             cluster=inference_cluster, config=generation_config
         )

Original file line number	Diff line number	Diff line change
`@@ -309,6 +309,11 @@ def setup(`
`309`	`309`	`)`
`310`	`310`	`elif backend == "vllm":`
`311`	`311`	`generation_config = cast(VllmConfig, generation_config)`
	`312`	`+ if generation_config["vllm_cfg"]["precision"] == "fp8":`
	`313`	`+ assert loss_config["use_importance_sampling_correction"] is True, (`
	`314`	`+ "Importance sampling must be enabled for vLLM FP8 generation!"`
	`315`	`+ )`
	`316`	`+`
`312`	`317`	`policy_generation = VllmGeneration(`
`313`	`318`	`cluster=inference_cluster, config=generation_config`
`314`	`319`	`)`