關於強化學習

此教程是關於如何使用 TamaGo 的 Gumbel AlphaZero 強化學習系統。

前置作業

GNU Go 將會被用於確認自對戰的最終結果，它並不是必須的，但依然建議安裝下載，因為 TamaGo 本身對的自對戰的判斷有點不準確。

在 Ubuntu 上安裝 GNU Go 請輸入

apt install gnugo

強化學習的參數定義在 learning_param.py。

選項	描述	預設值	備註
RL_LEARNING_RATE	強化學習使用的學習率	0.01	學習到一定程度後，可以調降學習率繼續訓練。
BATCH_SIZE	強化學習使用的 batch size	256	如果 GPU 記憶體不夠，請使用較小的值。
MOMENTUM	優化器使用的 Momentum 參數	0.9	基本上不需要修改
WEIGHT_DECAY	優化器使用的 weight decay 參數	1e-4 (0.0001)	基本上不需要修改
DATA_SET_SIZE	每個 npz 檔案包含的資料個數	BATCH_SIZE * 4000	請根據記憶體大小修改
RL_VALUE_WEIGHT	value loss 相對於 policy loss 的平衡參數	1.0	必須大於 0.0
SELF_PLAY_VISITS	每手棋使用的訪問數	16	必須大於 2
NUM_SELF_PLAY_WORKERS	自對戰使用的 worker 數	4	請根據自身的 CPU 改變參數
NUM_SELF_PLAY_GAMES	每回合自對戰的盤數	10000	數值太小容易學習到錯誤下法

下列 4 個檔案定義網路結構

檔案	定義
nn/network/dual_net.py	定義整體網路
nn/network/res_block.py	定義 Residual Block
nn/network/head/policy_head.py	定義 Policy Head
nn/network/head/value_head.py	定義 Value Head

如果你想改進網路結構，建議可以先簡單的提昇 filter 和 block 數目，它們定義在 dual_net.py 裡

請通過以下順序執行 TamaGo 的強化學習

可以直接用 pipeline.sh 執行整個過程。