Skip to content

Latest commit

 

History

History
8 lines (4 loc) · 1.48 KB

File metadata and controls

8 lines (4 loc) · 1.48 KB

7.4.3 Observations and Actions

Hanabi의 action space를 살펴보자면, 각 agent는 각 카드에 대해 버리거나, 등록하는 $$ N_h \times 2 $$의 행동을 할 수 있습니다. 또한, $$ N_{\mathrm{color}}+ N_{\mathrm{rank}}$$에 대한 힌트를 줄 수 있습니다. 이는 상대의 패중 rank나 color에 대해 알려줄 수 있는데,(둘 중 하나만) 이는 패의 같은 rank 혹은 color에 대해 모두 알려줄 수 있습니다.

처음에 모두의 토큰 8개를 가지고 시작합니다. 힌트에 대한 대가는 1개의 토큰이고, 카드를 하나 버림으로써 다시 하나를 얻을 수 있습니다. 모든 agent가 카드를 소진하면, 자신의 턴에 덱에서 카드를 뽑습니다. 만약 한 agent가 마지막 카드를 뽑으면, 그 agent를 포함한 모든 agent가 한번의 action을 돌아가면 한 뒤 게임은 끝나게 됩니다.

게임의 목표는 각 컬러별$$N_{\mathrm{color}}$$에 대해 rank 1부터 오름차순으로 rank $$N_{\mathrm{rank}}$$까지 배열하는 것이 목표입니다. 만약 한 컬러에 대해 $$N_{\mathrm{rank}}$$까지 채워졌다면, hint 토큰을하나 더 받게됩니다. agent가 만약 잘 못 등록을 하게 된다면, 3개 있는 life point에서 하나를 버리게되고, 그 카드도 버리게 됩니다. 만약 agent가 등록을 제대로 한다면, 1 포인트를 얻게 되고, 이 때, 최고로 받을 수 있는 점수는 $$N_{\mathrm{color}}$$$$N_{\mathrm{rank}}$$ 입니다.