为什么新的版本在k epochs更新时不重新计算advantages？ #68

Open

Open

为什么新的版本在k epochs更新时不重新计算advantages？#68

opened

on May 25, 2024

我记得在之前的版本中advantages = td_target - state_values，td_target使用reward计算，而state_values使用迭代后的policy进行估计。

Metadata

Assignees

No one assigned

Labels

No labels

No labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests