A megerősítéses tanulás jelenleg az egyik legforróbb kutatási téma, és népszerűsége napról napra növekszik. Nézzünk 5 hasznos dolgot, amit az RL-ről tudni érdemes.
- Mi az a megerősítéses tanulás? Hogyan kapcsolódik más ML-technikákhoz?
A megerősítéses tanulás (RL) egy olyan gépi tanulási technika, amely lehetővé teszi egy ágens számára, hogy interaktív környezetben próbálgatással és tévedéssel tanuljon a saját cselekvéseiből és tapasztalataiból származó visszajelzések felhasználásával.
Noha mind a felügyelt, mind a megerősítéses tanulás a bemenet és a kimenet közötti leképezést használja, a felügyelt tanulástól eltérően, ahol az ágensnek adott visszajelzés a feladat elvégzéséhez szükséges helyes cselekvéssorozat, a megerősítéses tanulás jutalmat és büntetést használ a pozitív és negatív viselkedés jelzéseként.
A felügyeletlen tanuláshoz képest a megerősítéses tanulás a célok tekintetében különbözik. Míg a felügyelet nélküli tanulásban a cél az adatpontok közötti hasonlóságok és különbségek megtalálása, addig a megerősítéses tanulásban a cél a megfelelő cselekvési modell megtalálása, amely maximalizálja az ágens teljes kumulatív jutalmát. Az alábbi ábra a megerősítéses tanulási modell alapgondolatát és elemeit mutatja be.
1. ábra
- Hogyan fogalmazható meg egy alapvető megerősítéses tanulási probléma?
Az RL-probléma elemeit leíró néhány kulcsfogalom:
Környezet: Fizikai világ, amelyben az ágens működik
Állapot: Az ágens aktuális helyzete
jutalom: Visszajelzés a környezetből
Politika: Az ágens állapotának cselekvésekhez való hozzárendelésének módszere
Value: Jövőbeni jutalom, amit az ágens egy adott állapotban végrehajtott cselekvésért kapna
A megerősítéses tanulás problémája leginkább játékokon keresztül magyarázható. Vegyük a PacMan játékot, ahol az ágens (PacMan) célja, hogy a rácson lévő ételt megegye, miközben elkerüli az útjába kerülő szellemeket. A rácsvilág az ágens interaktív környezete. PacMan jutalmat kap az étel elfogyasztásáért, és büntetést, ha a szellem megöli (elveszíti a játékot). Az állapotok PacMan helyét jelentik a rácsvilágban, a teljes kumulatív jutalom pedig azt jelenti, hogy PacMan megnyeri a játékot.
Az optimális politika kialakításához az ágensnek azzal a dilemmával kell szembenéznie, hogy új állapotokat fedezzen fel, miközben egyidejűleg maximalizálja a jutalmát. Ezt nevezzük Exploration vs Exploitation trade-offnak.
A Markov Döntési Folyamatok (MDP-k) matematikai keretek a környezet leírására a megerősítéses tanulásban, és szinte minden RL probléma formalizálható MDP-k segítségével. Egy MDP a környezet S véges állapotainak halmazából, az egyes állapotokban lehetséges A(s) cselekvések halmazából, egy valós értékű R(s) jutalomfüggvényből és egy P(s’, s | a) átmeneti modellből áll. A valós környezetben azonban nagyobb valószínűséggel nincs előzetes tudás a környezet dinamikájáról. Ilyen esetekben jól jönnek a modellmentes RL módszerek.
A Q-tanulás egy általánosan használt modellmentes megközelítés, amely egy önjátszó PacMan-ügynök létrehozására használható. A Q-értékek frissítésének fogalma körül forog, amely az a cselekvés elvégzésének értékét jelöli az s állapotban. Az értékfrissítési szabály a Q-tanulási algoritmus lényege.
2. ábra: Erősítéses tanulás értékfrissítési szabálya
3. ábra: PacMan
Itt egy videó egy mély megerősítéses tanulási PacMan-ügynökről
- Melyek a leggyakrabban használt megerősítéses tanulási algoritmusok?
A Q-tanulás és a SARSA (State-Action-Reward-State-Action) két általánosan használt modellmentes RL algoritmus. Feltárási stratégiáikban különböznek, míg kihasználási stratégiáik hasonlóak. Míg a Q-learning egy off-policy módszer, amelyben az ágens egy másik politikából származtatott a* akció alapján tanulja meg az értéket, addig a SARSA egy on-policy módszer, amelyben az aktuális politikából származtatott a* akció alapján tanulja meg az értéket. Ez a két módszer egyszerűen megvalósítható, de hiányzik belőlük az általánosság, mivel nem képesek értékeket becsülni a nem látott állapotokra.
Ezt fejlettebb algoritmusokkal lehet kiküszöbölni, mint például a Deep Q-Networks, amelyek neurális hálózatokat használnak a Q-értékek becslésére. A DQN-ek azonban csak diszkrét, alacsony dimenziós akciótereket tudnak kezelni. A DDPG(Deep Deterministic Policy Gradient)egy modellmentes, politikán kívüli, szereplő-kritikus algoritmus, amely ezt a problémát úgy kezeli, hogy nagy dimenziós, folytonos akcióterekben tanul politikákat.
4. ábra: szereplő-kritikus architektúra a megerősítéses tanuláshoz
- Milyen gyakorlati alkalmazásai vannak a megerősítéses tanulásnak?
Mivel az RL sok adatot igényel, ezért leginkább olyan területeken alkalmazható, ahol a szimulált adatok könnyen rendelkezésre állnak, mint a játék, robotika.
- Az RL-t elég széles körben használják a számítógépes játékokhoz való mesterséges intelligencia építésében. Az AlphaGo Zero az első számítógépes program, amely legyőzte a világbajnokot az ősi kínai Go játékban. Mások közé tartoznak az ATARI játékok, Backgammon, stb
- A robotikában és az ipari automatizálásban az RL-t arra használják, hogy a robot hatékony adaptív vezérlőrendszert hozzon létre magának, amely tanul a saját tapasztalataiból és viselkedéséből.A DeepMind Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Policy updates című munkája jó példa erre.
- Nézze meg ezt az érdekes bemutató videót.
- Az RL további alkalmazásai közé tartoznak a szövegösszefoglaló motorok, a felhasználói interakciókból tanulni képes és idővel javuló párbeszéd-ügynökök (szöveg, beszéd), az optimális kezelési irányelvek tanulása az egészségügyben és az RL-alapú ügynökök az online részvénykereskedelemben.
- Hogyan kezdhetek bele a megerősítéses tanulásba?
Az RL alapfogalmainak megértéséhez
- Reinforcement Learning-An Introduction, a megerősítéses tanulás atyjának, Richard Suttonnak és doktori tanácsadójának, Andrew Bartónak a könyve. A könyv online vázlata elérhető itt http://incompleteideas.net/book/the-book-2nd.html
- Tananyag David Silvertől, beleértve a videó előadásokat is, egy nagyszerű bevezető kurzus az RL-ről
- Itt egy másik technikai bemutató az RL-ről Pieter Abbeel és John Schulman (Open AI/ Berkeley AI Research Lab) tollából.
- Az RL-ügynökök építésének és tesztelésének megkezdéséhez,
- Ez a blog arról, hogyan képezzünk egy neurális hálózati ATARI Pong-ügynököt Policy Gradientekkel nyers pixelekből Andrej Karpathy által, segít abban, hogy az első Deep Reinforcement Learning-ügynököd mindössze 130 sor Python-kóddal működőképes legyen.
- A DeepMind Lab egy nyílt forráskódú 3D játékszerű platform, amelyet az ágens alapú AI kutatáshoz hoztak létre gazdag szimulált környezetekkel.
- A Project Malmo egy másik AI kísérletező platform az AI alapkutatás támogatására.
- Az OpenAI gym egy eszközkészlet megerősítéses tanulási algoritmusok építésére és összehasonlítására.
Bio: Shweta Bhatt a magán- és a közszférában szerzett tapasztalattal rendelkező AI-kutató, aki szenvedélyesen érdeklődik az adatokból való tudás levezetésének hatása és alkalmazásai iránt a kihívást jelentő problémák megoldása érdekében. Szeret történeteket mesélni adatokkal és Londonban él.
Kapcsolódó:
- A mesterséges intelligencia felemelkedése 1983-2010 között
- Exkluzív: Interjú Rich Suttonnal, a megerősített tanulás atyjával
- Mikor nem szabad megerősített tanulást használni?
- Making Machine Learning Simple