Reinforcement Learning is momenteel een van de populairste onderzoeksonderwerpen en de populariteit ervan neemt alleen maar toe met de dag. Laten we eens kijken naar 5 nuttige dingen om te weten over RL.
- Wat is reinforcement learning? Hoe verhoudt het zich tot andere ML-technieken?
Waarderingsleren (RL) is een type machineleertechniek waarmee een agent in een interactieve omgeving kan leren door vallen en opstaan met behulp van feedback van zijn eigen acties en ervaringen.
Hoewel zowel gesuperviseerd als bekrachtigend leren gebruik maken van mapping tussen input en output, in tegenstelling tot gesuperviseerd leren waar de feedback die aan de agent wordt gegeven een correcte reeks acties is voor het uitvoeren van een taak, maakt bekrachtigend leren gebruik van beloningen en straffen als signalen voor positief en negatief gedrag.
In vergelijking met ongesuperviseerd leren, is bekrachtigend leren anders in termen van doelen. Terwijl het doel in unsupervised learning is om overeenkomsten en verschillen tussen datapunten te vinden, is in reinforcement learning het doel om een geschikt actiemodel te vinden dat de totale cumulatieve beloning van de agent zou maximaliseren. De onderstaande figuur geeft het basisidee en de elementen weer die betrokken zijn bij een model voor versterkingsleren.
Figuur 1
- Hoe formuleer je een basisprobleem voor versterkingsleren?
Enkele sleuteltermen die de elementen van een RL-probleem beschrijven zijn:
Omgeving: Fysieke wereld waarin de agent opereert
Status: Huidige situatie van de agent
Beloning: Terugkoppeling van de omgeving
Policy: Methode om de toestand van de agent in acties om te zetten
Value: Toekomstige beloning die een agent zou ontvangen door een actie te ondernemen in een bepaalde toestand
Een Reinforcement Learning-probleem kan het best worden uitgelegd aan de hand van spelletjes. Laten we het spel van PacMan nemen waar het doel van de agent (PacMan) is om het voedsel in het raster te eten terwijl het vermijden van de geesten op zijn weg. De rasterwereld is de interactieve omgeving voor de agent. PacMan krijgt een beloning voor het eten van voedsel en een straf als hij wordt gedood door de geesten (verliest het spel). De staten zijn de locatie van PacMan in de rasterwereld en de totale cumulatieve beloning is PacMan het winnen van het spel.
Om een optimaal beleid op te bouwen, wordt de agent geconfronteerd met het dilemma van het verkennen van nieuwe staten en tegelijkertijd het maximaliseren van zijn beloning. Dit wordt genoemd Exploration vs Exploitation trade-off.
Markov Decision Processes (MDP’s) zijn wiskundige raamwerken om een omgeving te beschrijven in reinforcement learning en bijna alle RL problemen kunnen worden geformaliseerd met behulp van MDP’s. Een MDP bestaat uit een set van eindige omgevingstoestanden S, een set van mogelijke acties A(s) in elke toestand, een reële beloningsfunctie R(s) en een transitiemodel P(s’, s | a). In reële omgevingen is het echter waarschijnlijker dat er geen voorafgaande kennis is van de dynamica van de omgeving. Modelvrije RL methoden komen in zulke gevallen goed van pas.
Q-learning is een veelgebruikte modelvrije benadering die kan worden gebruikt voor het bouwen van een zelfspelende PacMan agent. Het draait om de notie van het bijwerken van Q-waarden die de waarde van het doen van actie a in staat s. De waarde update regel is de kern van het Q-learning algoritme.
Figuur 2: Actieregel van het versterkingsleren
Figuur 3: PacMan
Hier is een video van een PacMan-agent die diepgaand leert versterken
- Wat zijn enkele van de meest gebruikte versterkingslerende algoritmen?
Q-learning en SARSA (State-Action-Reward-State-Action) zijn twee veelgebruikte modelvrije RL-algoritmen. Ze verschillen wat betreft hun exploratiestrategieën, terwijl hun exploitatiestrategieën vergelijkbaar zijn. Terwijl Q-learning een off-policy methode is waarbij de agent de waarde leert op basis van actie a* afgeleid van het andere beleid, is SARSA een on-policy methode waarbij de agent de waarde leert op basis van zijn huidige actie a afgeleid van het huidige beleid. Deze twee methoden zijn eenvoudig te implementeren, maar missen generaliteit omdat ze niet de mogelijkheid hebben om waarden in te schatten voor ongeziene toestanden.
Dit kan worden ondervangen door meer geavanceerde algoritmen zoals Deep Q-Networks die Neurale Netwerken gebruiken om Q-waarden in te schatten. Maar DQN’s kunnen alleen discrete, laagdimensionale actieruimten aan. DDPG (Deep Deterministic Policy Gradient) is een modelvrij, off-policy, actor-kritisch algoritme dat dit probleem aanpakt door policies te leren in hoogdimensionale, continue action spaces.
Figuur 4: actor-kritische architectuur voor Reinforcement Learning
- Wat zijn de praktische toepassingen van Reinforcement Learning?
Omdat RL veel gegevens vereist, is het het meest toepasbaar in domeinen waar gesimuleerde gegevens gemakkelijk beschikbaar zijn, zoals gameplay en robotica.
- RL wordt vrij veel gebruikt bij het bouwen van AI voor het spelen van computerspellen. AlphaGo Zero is het eerste computerprogramma dat een wereldkampioen in het oude Chinese spel Go heeft verslagen. Anderen omvatten ATARI-spellen, Backgammon, enz
- In robotica en industriële automatisering wordt RL gebruikt om de robot in staat te stellen een efficiënt adaptief besturingssysteem voor zichzelf te maken dat leert van zijn eigen ervaring en gedrag.DeepMind’s werk aan Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Policy updates is een goed voorbeeld van hetzelfde.
- Bekijk deze interessante demonstratievideo.
- Andere toepassingen van RL omvatten engines voor tekstsamenvattingen, dialoogagenten (tekst, spraak) die kunnen leren van gebruikersinteracties en met de tijd kunnen verbeteren, het leren van optimaal behandelingsbeleid in de gezondheidszorg en op RL gebaseerde agenten voor online aandelenhandel.
- Hoe kan ik aan de slag met Reinforcement Learning?
Voor een goed begrip van de basisconcepten van RL,
- Reinforcement Learning-An Introduction, een boek van de vader van Reinforcement Learning- Richard Sutton en zijn doctoraal adviseur Andrew Barto. Een online concept van het boek is hier beschikbaar http://incompleteideas.net/book/the-book-2nd.html
- Leermateriaal van David Silver inclusief video lezingen is een geweldige inleidende cursus over RL
- Hier is een andere technische tutorial over RL door Pieter Abbeel en John Schulman (Open AI/ Berkeley AI Research Lab).
- Om aan de slag te gaan met het bouwen en testen van RL agents,
- Deze blog over hoe je een Neural Network ATARI Pong agent traint met Policy Gradients van ruwe pixels door Andrej Karpathy zal je helpen om je eerste Deep Reinforcement Learning agent up and running te krijgen in slechts 130 regels Python code.
- DeepMind Lab is een open source 3D-game-achtig platform gemaakt voor agent-gebaseerd AI-onderzoek met rijke gesimuleerde omgevingen.
- Project Malmo is een ander AI-experimentatieplatform voor de ondersteuning van fundamenteel onderzoek in AI.
- OpenAI gym is een toolkit voor het bouwen en vergelijken van reinforcement learning algoritmen.
Bio: Shweta Bhatt is AI-onderzoeker met ervaring in de private en publieke sector, gepassioneerd over de impact en toepassingen van het afleiden van kennis uit data om uitdagende problemen op te lossen. Ze vertelt graag verhalen met data en is gevestigd in Londen.
Relaties:
- Resurgence of AI During 1983-2010
- Exclusive: Interview met Rich Sutton, de vader van Reinforcement Learning
- Wanneer reinforcement learning niet moet worden gebruikt?
- Making Machine Learning Simple