Update tokenizer apply_chat_template with return_dict=True default (#4448)

albertvillanova · web-flow · commit 8b0a3ce7c718 · 2025-11-04T13:37:39.000-07:00
diff --git a/trl/trainer/reward_trainer.py b/trl/trainer/reward_trainer.py
@@ -488,13 +488,15 @@ def tokenize_fn(example, processing_class):
                         chosen_input_ids = processing_class.apply_chat_template(
                             example["chosen"],
                             tools=example.get("tools"),
+                            return_dict=True,
                             **example.get("chat_template_kwargs", {}),
-                        )
+                        )["input_ids"]
                         rejected_input_ids = processing_class.apply_chat_template(
                             example["rejected"],
                             tools=example.get("tools"),
+                            return_dict=True,
                             **example.get("chat_template_kwargs", {}),
-                        )
+                        )["input_ids"]
                         output = {"chosen_input_ids": chosen_input_ids, "rejected_input_ids": rejected_input_ids}
                     else:
                         output = {