정확한 matrix game에 대한 설명필요
여기선 첫째로, 2인용 2-step에 끝나는 partially observable matrix-like game에 실험을 진행하였습니다. 이 실험에서 각 agent의 state는 random bit로 이루어져있고, action space는 3개의 discrete action으로 구성되어 있는 상황입니다. 각 agent가 자신의 카드를 관찰하고, (2-step game이므로, agent 1만) 자신의 패에 대한 정보를 encoding하여 행동에 옮겨야하는 상황입니다. reward는 두 agent가 좋은 convention을 얻었을 때만 최대화 될 수 있는데 이는 2-step이므로, agent 1이 정보를 잘 전달할 수 있는 행동을 해 agent 2가 잘 알아듣고 행동했을 때를 의미합니다. 성능에 대해 아래의 그래프를 살펴보겠습니다.
이 실험에서 BAD는 baseline인 Vanila PG보다 압도적으로 좋은 것을 볼 수 있습니다. 또한 CF policy gradient는