5 věcí, které byste měli vědět o učení s posilováním

Od Shweta Bhatt, Youplus.

Učení s posilováním je v současnosti jedním z nejžhavějších výzkumných témat a jeho popularita den ode dne roste. Podívejme se na 5 užitečných informací o RL.

Co je to posilovací učení? Jak souvisí s ostatními technikami ML?

Reinforcement Learning(RL) je typ techniky strojového učení, která umožňuje agentovi učit se v interaktivním prostředí metodou pokusů a omylů pomocí zpětné vazby z vlastních akcí a zkušeností.

Ačkoli jak učení s dohledem, tak učení s posilováním používají mapování mezi vstupem a výstupem, na rozdíl od učení s dohledem, kde je zpětnou vazbou poskytovanou agentovi správný soubor akcí pro provedení úkolu, učení s posilováním používá odměny a tresty jako signály pro pozitivní a negativní chování.

V porovnání s učením bez dohledu se učení s posilováním liší z hlediska cílů. Zatímco cílem v nekontrolovaném učení je najít podobnosti a rozdíly mezi datovými body, v posilovacím učení je cílem najít vhodný model akce, který by maximalizoval celkovou kumulativní odměnu agenta. Následující obrázek představuje základní myšlenku a prvky, které se podílejí na modelu posilovacího učení.

Obrázek 1

Jak formulovat základní problém posilovacího učení

Několik klíčových pojmů, které popisují prvky problému RL, je:

Prostředí: Fyzický svět, ve kterém agent působí

Stav: Aktuální situace agenta

Odměna: Zpětná vazba z prostředí

Politika: Metoda mapování stavu agenta na akce

Hodnota: Problém učení s posilováním lze nejlépe vysvětlit pomocí her: Budoucí odměna, kterou by agent získal provedením akce v určitém stavu

Problém učení s posilováním lze nejlépe vysvětlit pomocí her. Vezměme si hru PacMan, kde je cílem agenta (PacMan) sníst jídlo v mřížce a přitom se vyhnout duchům na své cestě. Interaktivním prostředím pro agenta je svět mřížky. PacMan dostává odměnu za snědení jídla a trest, pokud ho zabije duch (prohraje hru). Stavy jsou umístění PacMana ve světě mřížky a celková kumulativní odměna je PacManova výhra ve hře.

Pro sestavení optimální politiky čelí agent dilematu, zda má prozkoumat nové stavy a zároveň maximalizovat svou odměnu. Tomu se říká Exploration vs Exploitation trade-off.

Markovovy rozhodovací procesy (MDP) jsou matematickým rámcem pro popis prostředí v posilovacím učení a téměř všechny problémy RL lze formalizovat pomocí MDP. MDP se skládá z množiny konečných stavů prostředí S, množiny možných akcí A(s) v každém stavu, reálně oceněné funkce odměny R(s) a přechodového modelu P(s‘, s | a). V reálném prostředí však s větší pravděpodobností chybí jakákoli předchozí znalost dynamiky prostředí. V takových případech se hodí bezmodelové metody RL.

Q-learning je běžně používaný bezmodelový přístup, který lze použít pro sestavení samostatně hrajícího agenta PacMan. Točí se kolem pojmu aktualizace hodnot Q, které označují hodnotu provedení akce a ve stavu s. Pravidlo aktualizace hodnot je jádrem algoritmu Q-learning.

Obrázek 2: Pravidlo aktualizace posilovacího učení

Obrázek 3: PacMan

Tady je video agenta PacMan s hlubokým posilováním

Jaké jsou nejpoužívanější algoritmy posilovacího učení?

Q-learning a SARSA (State-Action-Reward-State-Action) jsou dva běžně používané algoritmy RL bez modelu. Liší se svými strategiemi průzkumu, zatímco jejich strategie využití jsou podobné. Zatímco Q-learning je metoda off-policy, při níž se agent učí hodnotu na základě akce a* odvozené z jiné politiky, SARSA je metoda on-policy, při níž se učí hodnotu na základě své aktuální akce aderived z jeho aktuální politiky. Tyto dvě metody jsou jednoduché na implementaci, ale postrádají obecnost, protože nemají možnost odhadovat hodnoty pro neviděné stavy.

To lze překonat pomocí pokročilejších algoritmů, jako jsou Deep Q-Networks, které k odhadu hodnot Q používají neuronové sítě. DQN si však poradí pouze s diskrétními, málo rozměrnými akčními prostory. DDPG(Deep Deterministic Policy Gradient)je bezmodelový, mimo politiky, aktérsko-kritický algoritmus, který tento problém řeší učením politik ve vysokorozměrných, spojitých akčních prostorech.

Obrázek 4: aktérsko-kritická architektura pro Reinforcement Learning

Jaké jsou praktické aplikace Reinforcement Learningu?

Protože RL vyžaduje velké množství dat, proto je nejvíce použitelné v oblastech, kde jsou snadno dostupná simulovaná data, jako jsou hry, robotika.

RL se poměrně široce používá při vytváření umělé inteligence pro hraní počítačových her. AlphaGo Zero je první počítačový program, který porazil mistra světa ve starobylé čínské hře Go. Mezi další patří hry ATARI, Backgammon atd
V robotice a průmyslové automatizaci se RL používá k tomu, aby si robot mohl sám vytvořit efektivní adaptivní řídicí systém, který se učí z vlastních zkušeností a chování.
Dobrým příkladem je práce společnosti DeepMind na Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Policy updates.
Podívejte se na toto zajímavé demonstrační video.
Další aplikace RL zahrnují stroje pro sumarizaci textu, dialogové agenty (textové, řečové), kteří se mohou učit z interakcí s uživatelem a s časem se zlepšovat, učení optimálních léčebných politik ve zdravotnictví a agenty založené na RL pro online obchodování s akciemi.

Jak mohu začít s Reinforcement Learningem?

Pro pochopení základních pojmů RL,

Reinforcement Learning-An Introduction, kniha od otce Reinforcement Learningu- Richarda Suttona a jeho doktorského poradce Andrewa Barta. Online návrh knihy je k dispozici zde http://incompleteideas.net/book/the-book-2nd.html
Výukový materiálod Davida Silvera včetně videopřednášek je skvělý úvodní kurz o RL
Tady je další technický výukový materiál o RL od Pietera Abbeela a Johna Schulmana (Open AI/ Berkeley AI Research Lab).
Pokud chcete začít s vytvářením a testováním RL agentů,
tento blog o tom, jak trénovat agenta neuronové sítě ATARI Pong s Policy Gradients ze surových pixelů od Andreje Karpathyho vám pomůže zprovoznit vašeho prvního agenta Deep Reinforcement Learning na pouhých 130 řádcích kódu Pythonu.
DeepMind Lab je open source platforma podobná 3D hrám vytvořená pro agentový výzkum AI s bohatým simulovaným prostředím.
Project Malmo je další experimentální platforma AI pro podporu základního výzkumu v AI.
OpenAI gym je sada nástrojů pro vytváření a porovnávání algoritmů reinforcement learning.

Bio: Shweta Bhatt je výzkumná pracovnice v oblasti umělé inteligence se zkušenostmi ze soukromého i veřejného sektoru, která se vášnivě zajímá o dopady a aplikace získávání znalostí z dat pro řešení náročných problémů. Ráda vypráví příběhy pomocí dat a působí v Londýně.

Související:

Resurgence umělé inteligence v letech 1983-2010
Exkluzivně: Rozhovor s Richem Suttonem, otcem posilovacího učení
Kdy by se posilovací učení nemělo používat?“
Making Machine Learning Simple

KDnuggets

Napsat komentář Zrušit odpověď na komentář