Ovaj rad proučava problematiku podržanog učenja gdje se bez znanja o pravilima i funkcioniranju specifične okoline, želi konstruirati agent kojemu je cilj pronaći optimalnu strategiju koja maksimizira očekivanu dobit u određenom vremenskom okviru. Osim opisa podržanog učenja, dubokih modela i algoritama koji se baziraju na dubokim modelima, detaljno je prezentirana struktura OpenAI Gym biblioteke i njenih okolina, te napravljena usporedba u kojoj se analizira uspješnost naučenih agenata dubokog Q učenja, dvostrukog dubokog Q učenja te prednosnog akter-kritičara.
Programsko rješenje implementirano je u programskom jeziku Python, primarno koristeći PyTorch radni okvir za dizajn i učenje dubokih neuronskih mreža, te OpenAI Gym biblioteka za simulaciju i testiranje ponašanja agenata.
This thesis studies the issue of reinforcement learning where without knowing the rules and internal dynamics of environment, the goal is to build an agent whose aim is to find the optimal strategy that maximizes the expected reward in a given time frame. Aside from describing the basics of reinforcement learning, deep learning models and model-free algorithms, the key concepts of OpenAI Gym library and its environments are broken down in detail, and a comparison is made between agents implemented using Deep Q Networks, Double Deep Q Networks and Advantage Actor Critic Networks.
Software implementation is written in Python, primarily using the PyTorch framework for designing and learning deep neural networks, and the OpenAI Gym library for simulating and testing agent behavior.
Master's thesis (.pdf)
Master's thesis (.pptx)
DQN Agent |
DDQN Agent |
A2C Agent |