Skip to content

Latest commit

 

History

History
26 lines (21 loc) · 1.94 KB

TODO.md

File metadata and controls

26 lines (21 loc) · 1.94 KB

整体规划

整体分类 任务说明 备注
框架功能 实现CNN功能 目前已有DQN-CNN但不稳定,需要在其他算法以及环境(breakout、蒙特祖玛)实现
实现RNN功能 例如DRQN算法
实现多头输入 关键在于自注意力机制以及寻找有价值的实现环境
实现多线程 目前在A3C上用multiprocessing实现,需要迁移到其他所有算法(要更改主框架)
TF1 backend 基于tensorflow1实现相关算法
算法实现 基础算法 TRPO、ACER算法
多智能体算法 QMIX算法、VDN算法、MAPPO算法,场景:MPE、gfootball(简单3v3)
离线RL算法
ICM算法
模仿学习算法 BC+TD3、LfHF算法(参考repo:https://github.com/mrahtz/learning-from-human-preferences)
场景应用 推荐系统场景 可在RL4RS上实现强化学习加推荐系统的结合
股票场景
自动驾驶场景
医疗场景(张怡)

细节清单

  1. H-DQN格式优化
  2. Collect模式多线程