You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Hanabi의 action space를 살펴보자면, 각 agent는 각 카드에 대해 버리거나, 등록하는 $$ N_h \times 2 $$의 행동을 할 수 있습니다. 또한, $$ N_{\mathrm{color}}+ N_{\mathrm{rank}}$$에 대한 힌트를 줄 수 있습니다. 이는 상대의 패중 rank나 color에 대해 알려줄 수 있는데,(둘 중 하나만) 이는 패의 같은 rank 혹은 color에 대해 모두 알려줄 수 있습니다.
처음에 모두의 토큰 8개를 가지고 시작합니다. 힌트에 대한 대가는 1개의 토큰이고, 카드를 하나 버림으로써 다시 하나를 얻을 수 있습니다. 모든 agent가 카드를 소진하면, 자신의 턴에 덱에서 카드를 뽑습니다. 만약 한 agent가 마지막 카드를 뽑으면, 그 agent를 포함한 모든 agent가 한번의 action을 돌아가면 한 뒤 게임은 끝나게 됩니다.
게임의 목표는 각 컬러별$$N_{\mathrm{color}}$$에 대해 rank 1부터 오름차순으로 rank $$N_{\mathrm{rank}}$$까지 배열하는 것이 목표입니다. 만약 한 컬러에 대해 $$N_{\mathrm{rank}}$$까지 채워졌다면, hint 토큰을하나 더 받게됩니다. agent가 만약 잘 못 등록을 하게 된다면, 3개 있는 life point에서 하나를 버리게되고, 그 카드도 버리게 됩니다. 만약 agent가 등록을 제대로 한다면, 1 포인트를 얻게 되고, 이 때, 최고로 받을 수 있는 점수는 $$N_{\mathrm{color}}$$$$N_{\mathrm{rank}}$$ 입니다.