ray-project · ArturNiederfahrenhorst · May 22, 2023 · May 21, 2023 · May 22, 2023
@@ -539,12 +539,16 @@ def step(self):
             "episodes_this_iter": noisy_lengths.size,
             "episodes_so_far": self.episodes_so_far,
         }
-        result = dict(
-            episode_reward_mean=np.mean(self.reward_list[-self.report_length :]),
-            episode_len_mean=eval_lengths.mean(),
-            timesteps_this_iter=noisy_lengths.sum(),
-            info=info,
-        )
+
+        reward_mean = np.mean(self.reward_list[-self.report_length :])
+        result = {
+            "sampler_results": {
+                "episode_reward_mean": reward_mean,
+                "episode_len_mean": eval_lengths.mean(),
+            },
+            "timesteps_this_iter": noisy_lengths.sum(),
+            "info": info,
+        }
 
         return result
 

@@ -530,12 +530,14 @@ def step(self):
         }
 
         reward_mean = np.mean(self.reward_list[-self.report_length :])
-        result = dict(
-            episode_reward_mean=reward_mean,
-            episode_len_mean=eval_lengths.mean(),
-            timesteps_this_iter=noisy_lengths.sum(),
-            info=info,
-        )
+        result = {
+            "sampler_results": {
+                "episode_reward_mean": reward_mean,
+                "episode_len_mean": eval_lengths.mean(),
+            },
+            "timesteps_this_iter": noisy_lengths.sum(),
+            "info": info,
+        }
 
         return result
 

@@ -2,7 +2,7 @@ cartpole-ars:
     env: CartPole-v1
     run: ARS
     stop:
-        episode_reward_mean: 150
+        sampler_results/episode_reward_mean: 150
         timesteps_total: 1000000
     config:
         # Works for both torch and tf.