[RLlib] APPO enhancements (new API stack) vol 03: Fix target network update setting and logic. #48802

sven1977 · 2024-11-19T15:40:46Z

APPO enhancements (new API stack) vol 03: Fix target network update setting and logic.

the frequency setting should be against the NUM_ENV_STEPS_TRAINED_LIFETIME metrics, not SAMPLED(!)
the frequency unit should be n from the paper, where n=N [number of batches in buffer] * K [max iterations per batch] * [train batch size].
Change the default of target_network_update_freq from 1 to 2. The current setting of 1 makes it such that the network gets updated after each batch update, b/c the unit used (individual timesteps) is wrong.

Why are these changes needed?

Related issue number

Checks

I've signed off every commit(by using the -s flag, i.e., git commit -s) in this PR.
I've run scripts/format.sh to lint the changes in this PR.
I've included any doc changes needed for https://docs.ray.io/en/master/.
- I've added any new APIs to the API Reference. For example, if I added a
  method in Tune, I've added it in doc/source/tune/api/ under the
  corresponding .rst file.
I've made sure the tests are passing. Note that there might be a few flaky tests, see the recent failures at https://flakey-tests.ray.io/
Testing Strategy
- Unit tests
- Release tests
- This PR is not tested :(

Signed-off-by: sven1977 <svenmika1977@gmail.com>

simonsays1980

LGTM.

simonsays1980 · 2024-11-19T15:55:07Z

rllib/algorithms/appo/appo.py

+                and `train_batch_size_per_learner=500`, then the target net is updated
+                every 2*4*2*500=8000 trained env steps (every 16 batch updates on each
+                learner).
+                The authors in [1] suggests that this setting is robust to a range of


Awesome. These comments are so helpful!

…_freq Signed-off-by: Sven Mika <svenmika1977@gmail.com>

Signed-off-by: sven1977 <svenmika1977@gmail.com>

…net_update_freq' into appo_enhancements_03_fix_target_net_update_freq

Signed-off-by: sven1977 <svenmika1977@gmail.com>

…ments_03_fix_target_net_update_freq # Conflicts: # rllib/algorithms/appo/appo.py

Signed-off-by: sven1977 <svenmika1977@gmail.com>

…_enhancements_01_circular_buffer

Signed-off-by: sven1977 <svenmika1977@gmail.com>

…ments_03_fix_target_net_update_freq

Signed-off-by: sven1977 <svenmika1977@gmail.com>

…update setting and logic. (ray-project#48802) Signed-off-by: Connor Sanders <connor@elastiflow.com>

…update setting and logic. (ray-project#48802) Signed-off-by: hjiang <dentinyhao@gmail.com>

sven1977 added 4 commits November 19, 2024 10:15

wip

4d384c4

Signed-off-by: sven1977 <svenmika1977@gmail.com>

wip

a2cb3ae

Signed-off-by: sven1977 <svenmika1977@gmail.com>

wip

ccb5071

Signed-off-by: sven1977 <svenmika1977@gmail.com>

wip

a98500a

Signed-off-by: sven1977 <svenmika1977@gmail.com>

sven1977 requested a review from simonsays1980 as a code owner November 19, 2024 15:40

sven1977 assigned simonsays1980 Nov 19, 2024

sven1977 added rllib RLlib related issues rllib-algorithms An RLlib algorithm/Trainer is not learning. rllib-newstack labels Nov 19, 2024

simonsays1980 approved these changes Nov 19, 2024

View reviewed changes

sven1977 added 14 commits November 19, 2024 19:18

Merge branch 'master' into appo_enhancements_03_fix_target_net_update…

0fd5dfa

…_freq Signed-off-by: Sven Mika <svenmika1977@gmail.com>

LINT

880e258

Signed-off-by: sven1977 <svenmika1977@gmail.com>

Merge remote-tracking branch 'origin/appo_enhancements_03_fix_target_…

c644a4f

…net_update_freq' into appo_enhancements_03_fix_target_net_update_freq

wip

9ebeb93

Signed-off-by: sven1977 <svenmika1977@gmail.com>

merge

10aa9b7

Signed-off-by: sven1977 <svenmika1977@gmail.com>

wip

ee651db

Signed-off-by: sven1977 <svenmika1977@gmail.com>

fix

5a531b9

Signed-off-by: sven1977 <svenmika1977@gmail.com>

Merge branch 'appo_enhancements_01_circular_buffer' into appo_enhance…

c43bbe1

…ments_03_fix_target_net_update_freq # Conflicts: # rllib/algorithms/appo/appo.py

wip

ce723a5

Signed-off-by: sven1977 <svenmika1977@gmail.com>

fix

20bb7fe

Signed-off-by: sven1977 <svenmika1977@gmail.com>

Merge branch 'master' of https://github.com/ray-project/ray into appo…

b874e1d

…_enhancements_01_circular_buffer

wip

4a95bf8

Signed-off-by: sven1977 <svenmika1977@gmail.com>

wip

569af15

Signed-off-by: sven1977 <svenmika1977@gmail.com>

Merge branch 'appo_enhancements_01_circular_buffer' into appo_enhance…

36e23b9

…ments_03_fix_target_net_update_freq

sven1977 enabled auto-merge (squash) November 20, 2024 17:09

github-actions bot disabled auto-merge November 20, 2024 17:09

github-actions bot added the go add ONLY when ready to merge, run all tests label Nov 20, 2024

sven1977 added 2 commits November 20, 2024 21:00

merge

581c1e7

Signed-off-by: sven1977 <svenmika1977@gmail.com>

fix

fe58e58

Signed-off-by: sven1977 <svenmika1977@gmail.com>

sven1977 enabled auto-merge (squash) November 21, 2024 12:08

sven1977 merged commit e51cec6 into ray-project:master Nov 21, 2024
6 checks passed

sven1977 deleted the appo_enhancements_03_fix_target_net_update_freq branch November 21, 2024 13:19

jecsand838 pushed a commit to jecsand838/ray that referenced this pull request Dec 4, 2024

[RLlib] APPO enhancements (new API stack) vol 03: Fix target network …

6e4ab08

…update setting and logic. (ray-project#48802) Signed-off-by: Connor Sanders <connor@elastiflow.com>

dentiny pushed a commit to dentiny/ray that referenced this pull request Dec 7, 2024

[RLlib] APPO enhancements (new API stack) vol 03: Fix target network …

faf381a

…update setting and logic. (ray-project#48802) Signed-off-by: hjiang <dentinyhao@gmail.com>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[RLlib] APPO enhancements (new API stack) vol 03: Fix target network update setting and logic. #48802

[RLlib] APPO enhancements (new API stack) vol 03: Fix target network update setting and logic. #48802

sven1977 commented Nov 19, 2024 •

edited

Loading

simonsays1980 left a comment

simonsays1980 Nov 19, 2024

[RLlib] APPO enhancements (new API stack) vol 03: Fix target network update setting and logic. #48802

[RLlib] APPO enhancements (new API stack) vol 03: Fix target network update setting and logic. #48802

Conversation

sven1977 commented Nov 19, 2024 • edited Loading

Why are these changes needed?

Related issue number

Checks

simonsays1980 left a comment

Choose a reason for hiding this comment

simonsays1980 Nov 19, 2024

Choose a reason for hiding this comment

sven1977 commented Nov 19, 2024 •

edited

Loading