5 dolog, amit a megerősítéses tanulásról tudni kell

By Shweta Bhatt, Youplus.

A megerősítéses tanulás jelenleg az egyik legforróbb kutatási téma, és népszerűsége napról napra növekszik. Nézzünk 5 hasznos dolgot, amit az RL-ről tudni érdemes.

Mi az a megerősítéses tanulás? Hogyan kapcsolódik más ML-technikákhoz?

A megerősítéses tanulás (RL) egy olyan gépi tanulási technika, amely lehetővé teszi egy ágens számára, hogy interaktív környezetben próbálgatással és tévedéssel tanuljon a saját cselekvéseiből és tapasztalataiból származó visszajelzések felhasználásával.

Noha mind a felügyelt, mind a megerősítéses tanulás a bemenet és a kimenet közötti leképezést használja, a felügyelt tanulástól eltérően, ahol az ágensnek adott visszajelzés a feladat elvégzéséhez szükséges helyes cselekvéssorozat, a megerősítéses tanulás jutalmat és büntetést használ a pozitív és negatív viselkedés jelzéseként.

A felügyeletlen tanuláshoz képest a megerősítéses tanulás a célok tekintetében különbözik. Míg a felügyelet nélküli tanulásban a cél az adatpontok közötti hasonlóságok és különbségek megtalálása, addig a megerősítéses tanulásban a cél a megfelelő cselekvési modell megtalálása, amely maximalizálja az ágens teljes kumulatív jutalmát. Az alábbi ábra a megerősítéses tanulási modell alapgondolatát és elemeit mutatja be.

1. ábra

Hogyan fogalmazható meg egy alapvető megerősítéses tanulási probléma?

Az RL-probléma elemeit leíró néhány kulcsfogalom:

Környezet: Fizikai világ, amelyben az ágens működik

Állapot: Az ágens aktuális helyzete

jutalom: Visszajelzés a környezetből

Politika: Az ágens állapotának cselekvésekhez való hozzárendelésének módszere

Value: Jövőbeni jutalom, amit az ágens egy adott állapotban végrehajtott cselekvésért kapna

A megerősítéses tanulás problémája leginkább játékokon keresztül magyarázható. Vegyük a PacMan játékot, ahol az ágens (PacMan) célja, hogy a rácson lévő ételt megegye, miközben elkerüli az útjába kerülő szellemeket. A rácsvilág az ágens interaktív környezete. PacMan jutalmat kap az étel elfogyasztásáért, és büntetést, ha a szellem megöli (elveszíti a játékot). Az állapotok PacMan helyét jelentik a rácsvilágban, a teljes kumulatív jutalom pedig azt jelenti, hogy PacMan megnyeri a játékot.

Az optimális politika kialakításához az ágensnek azzal a dilemmával kell szembenéznie, hogy új állapotokat fedezzen fel, miközben egyidejűleg maximalizálja a jutalmát. Ezt nevezzük Exploration vs Exploitation trade-offnak.

A Markov Döntési Folyamatok (MDP-k) matematikai keretek a környezet leírására a megerősítéses tanulásban, és szinte minden RL probléma formalizálható MDP-k segítségével. Egy MDP a környezet S véges állapotainak halmazából, az egyes állapotokban lehetséges A(s) cselekvések halmazából, egy valós értékű R(s) jutalomfüggvényből és egy P(s’, s | a) átmeneti modellből áll. A valós környezetben azonban nagyobb valószínűséggel nincs előzetes tudás a környezet dinamikájáról. Ilyen esetekben jól jönnek a modellmentes RL módszerek.

A Q-tanulás egy általánosan használt modellmentes megközelítés, amely egy önjátszó PacMan-ügynök létrehozására használható. A Q-értékek frissítésének fogalma körül forog, amely az a cselekvés elvégzésének értékét jelöli az s állapotban. Az értékfrissítési szabály a Q-tanulási algoritmus lényege.

2. ábra: Erősítéses tanulás értékfrissítési szabálya

3. ábra: PacMan

Itt egy videó egy mély megerősítéses tanulási PacMan-ügynökről

Melyek a leggyakrabban használt megerősítéses tanulási algoritmusok?

A Q-tanulás és a SARSA (State-Action-Reward-State-Action) két általánosan használt modellmentes RL algoritmus. Feltárási stratégiáikban különböznek, míg kihasználási stratégiáik hasonlóak. Míg a Q-learning egy off-policy módszer, amelyben az ágens egy másik politikából származtatott a* akció alapján tanulja meg az értéket, addig a SARSA egy on-policy módszer, amelyben az aktuális politikából származtatott a* akció alapján tanulja meg az értéket. Ez a két módszer egyszerűen megvalósítható, de hiányzik belőlük az általánosság, mivel nem képesek értékeket becsülni a nem látott állapotokra.

Ezt fejlettebb algoritmusokkal lehet kiküszöbölni, mint például a Deep Q-Networks, amelyek neurális hálózatokat használnak a Q-értékek becslésére. A DQN-ek azonban csak diszkrét, alacsony dimenziós akciótereket tudnak kezelni. A DDPG(Deep Deterministic Policy Gradient)egy modellmentes, politikán kívüli, szereplő-kritikus algoritmus, amely ezt a problémát úgy kezeli, hogy nagy dimenziós, folytonos akcióterekben tanul politikákat.

4. ábra: szereplő-kritikus architektúra a megerősítéses tanuláshoz

Milyen gyakorlati alkalmazásai vannak a megerősítéses tanulásnak?

Mivel az RL sok adatot igényel, ezért leginkább olyan területeken alkalmazható, ahol a szimulált adatok könnyen rendelkezésre állnak, mint a játék, robotika.

Az RL-t elég széles körben használják a számítógépes játékokhoz való mesterséges intelligencia építésében. Az AlphaGo Zero az első számítógépes program, amely legyőzte a világbajnokot az ősi kínai Go játékban. Mások közé tartoznak az ATARI játékok, Backgammon, stb
A robotikában és az ipari automatizálásban az RL-t arra használják, hogy a robot hatékony adaptív vezérlőrendszert hozzon létre magának, amely tanul a saját tapasztalataiból és viselkedéséből.A DeepMind Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Policy updates című munkája jó példa erre.
Nézze meg ezt az érdekes bemutató videót.
Az RL további alkalmazásai közé tartoznak a szövegösszefoglaló motorok, a felhasználói interakciókból tanulni képes és idővel javuló párbeszéd-ügynökök (szöveg, beszéd), az optimális kezelési irányelvek tanulása az egészségügyben és az RL-alapú ügynökök az online részvénykereskedelemben.

Hogyan kezdhetek bele a megerősítéses tanulásba?

Az RL alapfogalmainak megértéséhez

Reinforcement Learning-An Introduction, a megerősítéses tanulás atyjának, Richard Suttonnak és doktori tanácsadójának, Andrew Bartónak a könyve. A könyv online vázlata elérhető itt http://incompleteideas.net/book/the-book-2nd.html
Tananyag David Silvertől, beleértve a videó előadásokat is, egy nagyszerű bevezető kurzus az RL-ről
Itt egy másik technikai bemutató az RL-ről Pieter Abbeel és John Schulman (Open AI/ Berkeley AI Research Lab) tollából.
Az RL-ügynökök építésének és tesztelésének megkezdéséhez,
Ez a blog arról, hogyan képezzünk egy neurális hálózati ATARI Pong-ügynököt Policy Gradientekkel nyers pixelekből Andrej Karpathy által, segít abban, hogy az első Deep Reinforcement Learning-ügynököd mindössze 130 sor Python-kóddal működőképes legyen.
A DeepMind Lab egy nyílt forráskódú 3D játékszerű platform, amelyet az ágens alapú AI kutatáshoz hoztak létre gazdag szimulált környezetekkel.
A Project Malmo egy másik AI kísérletező platform az AI alapkutatás támogatására.
Az OpenAI gym egy eszközkészlet megerősítéses tanulási algoritmusok építésére és összehasonlítására.

Bio: Shweta Bhatt a magán- és a közszférában szerzett tapasztalattal rendelkező AI-kutató, aki szenvedélyesen érdeklődik az adatokból való tudás levezetésének hatása és alkalmazásai iránt a kihívást jelentő problémák megoldása érdekében. Szeret történeteket mesélni adatokkal és Londonban él.

Kapcsolódó:

A mesterséges intelligencia felemelkedése 1983-2010 között
Exkluzív: Interjú Rich Suttonnal, a megerősített tanulás atyjával
Mikor nem szabad megerősített tanulást használni?
Making Machine Learning Simple

KDnuggets

Vélemény, hozzászólás? Kilépés a válaszból