huggingface · younesbelkada · Jan 23, 2024 · Jan 23, 2024
diff --git a/trl/trainer/sft_trainer.py b/trl/trainer/sft_trainer.py
@@ -428,12 +428,12 @@ def tokenize(element):
 
         signature_columns = ["input_ids", "labels", "attention_mask"]
 
-        extra_colmuns = list(set(dataset.column_names) - set(signature_columns))
+        extra_columns = list(set(dataset.column_names) - set(signature_columns))
 
-        if not remove_unused_columns and len(extra_colmuns) > 0:
+        if not remove_unused_columns and len(extra_columns) > 0:
             warnings.warn(
                 "You passed `remove_unused_columns=False` on a non-packed dataset. This might create some issues with the default collator and yield to errors. If you want to "
-                f"inspect dataset other columns (in this case {extra_colmuns}), you can subclass `DataCollatorForLanguageModeling` in case you used the default collator and create your own data collator in order to inspect the unused dataset columns."
+                f"inspect dataset other columns (in this case {extra_columns}), you can subclass `DataCollatorForLanguageModeling` in case you used the default collator and create your own data collator in order to inspect the unused dataset columns."
             )
 
         tokenized_dataset = dataset.map(