huggingface · XanderJC · Jan 31, 2024 · Jan 31, 2024 · Jan 31, 2024 · Jan 31, 2024
diff --git a/tests/test_ppo_trainer.py b/tests/test_ppo_trainer.py
@@ -151,7 +151,9 @@ def tearDown(self):
     def _init_dummy_dataset(self):
         # encode a query
         query_txt = "This morning I went to the "
-        query_tensor = self.gpt2_tokenizer.encode(query_txt, return_tensors="pt")
+        query_tensor = self.gpt2_tokenizer.encode(query_txt, return_tensors="pt").to(
+            self.gpt2_model.pretrained_model.device
+        )
         assert query_tensor.shape == (1, 7)
         # get model response
         response_tensor = respond_to_batch(self.gpt2_model, query_tensor)
@@ -457,14 +459,19 @@ def test_ppo_step_rewards_shape(self):
         for query_tensor, response_tensor in dummy_dataloader:
             # define a reward for response
             # (this could be any reward such as human feedback or output from another model)
-            reward = [torch.tensor([[1.0]]), torch.tensor([[0.0]])]
+            reward = [torch.tensor([1.0, 2.0, 3.0]), torch.tensor([[0.0, 1.0]])]
             # train model - this should raise an error
             with self.assertRaises(ValueError):
                 _ = ppo_trainer.step([q for q in query_tensor], [r for r in response_tensor], reward)
 
             reward = [torch.tensor([1.0]), torch.tensor([0.0])]
             # train model - this should work
             _ = ppo_trainer.step([q for q in query_tensor], [r for r in response_tensor], reward)
+
+            # token-level rewards
+            reward = [torch.tensor([1.0] * 7), torch.tensor([0.0] * 7)]
+            # train model - this should work
+            _ = ppo_trainer.step([q for q in query_tensor], [r for r in response_tensor], reward)
             break
 
         # check if the gradients are computed for the model
@@ -498,7 +505,7 @@ def test_ppo_step_input_shape(self):
             # train model - this should raise an error
             bs = ppo_trainer.config.batch_size
 
-            queries, responses, _, _ = ppo_trainer._step_safety_checker(
+            queries, responses, _, _, _ = ppo_trainer._step_safety_checker(
                 bs, [q for q in query_tensor], [r for r in response_tensor], reward
             )
 
@@ -516,7 +523,9 @@ def test_ppo_step_no_dataset(self):
         Test if the training loop works fine without passing a dataset
         """
         query_txt = "This morning I went to the "
-        query_tensor = self.gpt2_tokenizer.encode(query_txt, return_tensors="pt")
+        query_tensor = self.gpt2_tokenizer.encode(query_txt, return_tensors="pt").to(
+            self.gpt2_model.pretrained_model.device
+        )
         self.ppo_config.batch_size = 1
 
         response_tensor = respond_to_batch(self.gpt2_model, query_tensor)
@@ -565,7 +574,10 @@ def test_loss_trainer(self):
 
         dummy_queries = [torch.tensor([1, 2, 3, 4]), torch.tensor([1, 2, 3, 4, 5, 6, 7])]
         dummy_responses = [torch.tensor([5, 6, 7, 8, 9]), torch.tensor([8, 9, 10, 11, 12, 13])]
-        dummy_scores = torch.Tensor([1, 2])
+        dummy_scores = [
+            torch.tensor([0, 0, 0, 0, 1], device=ppo_trainer.current_device),
+            torch.tensor([0, 0, 0, 0, 0, 2], device=ppo_trainer.current_device),
+        ]
 
         ppo_trainer.config.mini_batch_size = 1
         ppo_trainer.config.batch_size = 1
@@ -989,9 +1001,11 @@ def make_inputs_require_grad(module, input, output):
                 _ = ppo_trainer.step([q for q in query_tensor], [r for r in response_tensor], reward)
                 break
 
-            new_logits = ppo_trainer.model.compute_reward_score(dummy_inputs)
-            self.assertTrue(not torch.allclose(previous_rm_logits, new_logits[:, -1, :]))
-            self.assertTrue(torch.allclose(original_rm_logits, new_logits[:, -1, :]))
+            new_logits = ppo_trainer.model.compute_reward_score(
+                dummy_inputs.to(ppo_trainer.model.pretrained_model.device)
+            )
+            self.assertTrue(not torch.allclose(previous_rm_logits, new_logits[:, -1, :].to(previous_rm_logits.device)))
+            self.assertTrue(torch.allclose(original_rm_logits, new_logits[:, -1, :].to(original_rm_logits.device)))
 
             # check gradients
             for name, param in model.named_parameters():
@@ -1126,7 +1140,10 @@ def test_generation(self):
 
         tokenizer.pad_token = tokenizer.eos_token
 
-        model_inputs = [tokenizer(txt, return_tensors="pt").input_ids.squeeze() for txt in input_texts]
+        model_inputs = [
+            tokenizer(txt, return_tensors="pt").to(model.pretrained_model.device).input_ids.squeeze()
+            for txt in input_texts
+        ]
 
         generations_batched = ppo_trainer.generate(model_inputs, batch_size=2, **generation_kwargs)
         generations_batched = tokenizer.batch_decode(generations_batched)

diff --git a/trl/trainer/ppo_trainer.py b/trl/trainer/ppo_trainer.py
@@ -605,14 +605,34 @@ def _step_safety_checker(
         scores = [tensor.to(self.current_device) for tensor in scores]
         masks = [tensor.to(self.current_device) for tensor in masks] if masks is not None else None
 
-        # squeeze scores if needed
-        for i, score in enumerate(scores):
-            if score.dim() > 1:
+        # format scores to token-level scores if needed
+        for i, (score, response) in enumerate(zip(scores, responses)):
+            # make score 1-dimensional
+            if score.dim() > 2:
                 raise ValueError(f"Scores must be 1-dimensional - got {score.dim()} for {score}")
-            elif score.dim() == 1:
-                scores[i] = score.squeeze()
+            elif score.dim() == 2:
+                if score.shape[0] != 1 or score.shape[1] != 1:
+                    raise ValueError(f"Scores must be 1-dimensional - got {score.shape} for {score}")
+                else:
+                    score = score.squeeze(1)
+            elif score.dim() == 0:
+                score = score.unsqueeze(0)
+            # make score token-level
+            if score.shape[0] != 1:
+                if score.shape[0] != response.shape[0]:
+                    raise ValueError(
+                        f"Score and response must have the same length if score not scalar- got {score.shape[0]} and {response.shape[0]}"
+                    )
+                else:
+                    scores[i] = score
+                    token_level_score = True
+            else:
+                token_score = torch.zeros_like(response, dtype=float).squeeze().to(self.current_device)
+                token_score[-1] = score
+                scores[i] = token_score
+                token_level_score = False
 
-        return queries, responses, scores, masks
+        return queries, responses, scores, masks, token_level_score
 
     @PPODecorators.empty_device_cache()
     def step(
@@ -640,29 +660,42 @@ def step(
         """
         bs = self.config.batch_size
 
-        queries, responses, scores, response_masks = self._step_safety_checker(
+        queries, responses, scores, response_masks, token_level_score = self._step_safety_checker(
             bs, queries, responses, scores, response_masks
         )
-        scores = torch.tensor(scores, device=self.current_device)
+
+        # we pad to one tensor to better handle scaling and clipping.
+        # different pad values as a token level score of 0 should be ignored
+        # if step was called with a scalar score, but not if token level
+        padding_value = float("-inf") if token_level_score else 0
+        max_length = max(score.size(0) for score in scores)
+        padded_scores = torch.stack(
+            [F.pad(score, (0, max_length - score.size(0)), value=padding_value) for score in scores]
+        )
+
         if self.config.use_score_scaling:
             # Score scaling
-            scores_mean, scores_std = self.running.update(scores)
-            tensor_to_kwargs = dict(dtype=scores.dtype, device=scores.device)
-            score_scaling_factor = self.running.std.to(**tensor_to_kwargs) + torch.finfo(scores.dtype).eps
+            scores_mean, scores_std = self.running.update(padded_scores[padded_scores != padding_value])
+            tensor_to_kwargs = dict(dtype=padded_scores.dtype, device=padded_scores.device)
+            score_scaling_factor = self.running.std.to(**tensor_to_kwargs) + torch.finfo(padded_scores.dtype).eps
             if self.config.use_score_norm:
-                scores = (scores - self.running.mean.to(**tensor_to_kwargs)) / score_scaling_factor
+                padded_scores[padded_scores != padding_value] = (
+                    padded_scores[padded_scores != padding_value] - self.running.mean.to(**tensor_to_kwargs)
+                ) / score_scaling_factor
             else:
-                scores /= score_scaling_factor
+                padded_scores /= score_scaling_factor
 
         if self.config.score_clip is not None:
             # Score clipping
-            scores_dtype = scores.dtype
-            scores = torch.clip(scores.float(), -self.config.score_clip, self.config.score_clip).to(dtype=scores_dtype)
+            scores_dtype = padded_scores.dtype
+            padded_scores = torch.clip(padded_scores.float(), -self.config.score_clip, self.config.score_clip).to(
+                dtype=scores_dtype
+            )
 
         # if we want to push best model to the hub
         if hasattr(self, "highest_reward"):
             if self.compare_step % self.config.compare_steps == 0:
-                curr_mean_reward = scores.mean()
+                curr_mean_reward = padded_scores[padded_scores != padding_value].sum() / bs
                 # if the best reward ever seen
                 if curr_mean_reward > self.highest_reward:
                     self.highest_reward = curr_mean_reward
@@ -734,10 +767,10 @@ def step(
                 ref_full_logprobs = logprobs_from_logits(ref_logits_or_none, None, gather=False)
 
                 rewards, non_score_reward, kls = self.compute_rewards(
-                    scores, active_full_logprobs, ref_full_logprobs, masks
+                    padded_scores, active_full_logprobs, ref_full_logprobs, masks
                 )
             else:
-                rewards, non_score_reward, kls = self.compute_rewards(scores, all_logprobs, ref_logprobs, masks)
+                rewards, non_score_reward, kls = self.compute_rewards(padded_scores, all_logprobs, ref_logprobs, masks)
             timing["time/ppo/compute_rewards"] = time.time() - t
 
             t = time.time()
@@ -821,8 +854,12 @@ def step(
         train_stats["policy/advantages"] = torch.nan_to_num(train_stats["policy/advantages"], WANDB_PADDING)
         train_stats["policy/ratio"] = torch.flatten(train_stats["policy/ratio"]).unsqueeze(0)
 
+        total_scores = torch.tensor([score[score != padding_value].sum() for score in padded_scores]).to(
+            self.current_device
+        )
+
         stats = self.record_step_stats(
-            scores=scores,
+            scores=total_scores,
             logprobs=all_logprobs,
             ref_logprobs=ref_logprobs,
             non_score_reward=non_score_reward,
@@ -1087,7 +1124,7 @@ def compute_rewards(
 
         Args:
             scores (`torch.FloatTensor`):
-                Scores from the reward model, shape (`batch_size`)
+                Scores from the reward model, shape (`batch_size`, `max_response_length')
             logprobs (`torch.FloatTensor`):
                 Log probabilities of the model, shape (`batch_size`, `response_length`)
             ref_logprobs (`torch.FloatTensor`):
@@ -1106,10 +1143,11 @@ def compute_rewards(
             non_score_reward = -self.kl_ctl.value * kl
             non_score_rewards.append(non_score_reward)
             reward = non_score_reward.clone()
-            last_non_masked_index = mask.nonzero()[-1]
 
+            # get the unpadded score
+            score = score[: mask.sum()]
             # reward is preference model score + KL penalty
-            reward[last_non_masked_index] += score
+            reward[mask.bool()] += score
             rewards.append(reward)
         return torch.stack(rewards), torch.stack(non_score_rewards), torch.stack(kls)
 
@@ -1330,6 +1368,9 @@ def log_stats(
         """
 
         # all gather stats
+
+        # sum to episodic rewards
+        rewards = [reward.sum() for reward in rewards]
         if not isinstance(rewards, torch.Tensor):
             rewards = torch.tensor(rewards).to(self.current_device)
         rewards = self.accelerator.gather(rewards).flatten()