git clone https://github.com/lich14/PAC_MEN.git
pip install -e PAC_MEN
此环境仿照吃豆人环境建立,有如下特点:
-
基本规则以及奖励获取
- 环境中一共有四个吃豆人,每一个吃豆人有5个动作,分别对应于
- 0: up 1: down 2: right 3: left 4: eat
- 吃豆人只有恰好处在豆子的位置上并且执行吃豆子的动作才会获得值为1的奖励
- 为了防止多个吃豆人同时吃豆子,设定在这种情况下奖励平均分配
- 时间限制为100步,在每一步中如果没有吃到豆子则会获得值为-0.1的惩罚
- 环境中一共有四个吃豆人,每一个吃豆人有5个动作,分别对应于
-
实验环境的设计
- 所有吃豆人在初始时刻都生成在中间的3x3区域内
- 中心区域每一条边的中点都延伸处一个通道各自连接一个3x5的区域
- 管道的长度有长有短,下侧的管道最短,左右两侧的管道适中,上侧的管道最长,比例为1 : 2 : 3
- 在初始时刻每一个3x5的区域内都随机生成三个豆子
- 在初始时刻共有12个豆子,只有当所有的豆子都被吃掉才会随机重新生成豆子,以鼓励吃豆人分散到四个房间内吃掉豆子
目前设计了三种大小的环境,不同之处只有管道的长度,分别为:
pacmen-tini-4ag-v0
管道长度基准为1pacmen-small-4ag-v0
管道长度基准为2pacmen-large-4ag-v0
管道长度基准为4
- 编写可视化程序
- 编写有2个吃豆人的程序
- 编写有8个吃豆人的程序