By Shweta Bhatt, Youplus.

A megerősítéses tanulás jelenleg az egyik legforróbb kutatási téma, és népszerűsége napról napra növekszik. Nézzünk 5 hasznos dolgot, amit az RL-ről tudni érdemes.

  1. Mi az a megerősítéses tanulás? Hogyan kapcsolódik más ML-technikákhoz?

A megerősítéses tanulás (RL) egy olyan gépi tanulási technika, amely lehetővé teszi egy ágens számára, hogy interaktív környezetben próbálgatással és tévedéssel tanuljon a saját cselekvéseiből és tapasztalataiból származó visszajelzések felhasználásával.

Noha mind a felügyelt, mind a megerősítéses tanulás a bemenet és a kimenet közötti leképezést használja, a felügyelt tanulástól eltérően, ahol az ágensnek adott visszajelzés a feladat elvégzéséhez szükséges helyes cselekvéssorozat, a megerősítéses tanulás jutalmat és büntetést használ a pozitív és negatív viselkedés jelzéseként.

A felügyeletlen tanuláshoz képest a megerősítéses tanulás a célok tekintetében különbözik. Míg a felügyelet nélküli tanulásban a cél az adatpontok közötti hasonlóságok és különbségek megtalálása, addig a megerősítéses tanulásban a cél a megfelelő cselekvési modell megtalálása, amely maximalizálja az ágens teljes kumulatív jutalmát. Az alábbi ábra a megerősítéses tanulási modell alapgondolatát és elemeit mutatja be.

1. ábra

  1. Hogyan fogalmazható meg egy alapvető megerősítéses tanulási probléma?

Az RL-probléma elemeit leíró néhány kulcsfogalom:

Környezet: Fizikai világ, amelyben az ágens működik

Állapot: Az ágens aktuális helyzete

jutalom: Visszajelzés a környezetből

Politika: Az ágens állapotának cselekvésekhez való hozzárendelésének módszere

Value: Jövőbeni jutalom, amit az ágens egy adott állapotban végrehajtott cselekvésért kapna

A megerősítéses tanulás problémája leginkább játékokon keresztül magyarázható. Vegyük a PacMan játékot, ahol az ágens (PacMan) célja, hogy a rácson lévő ételt megegye, miközben elkerüli az útjába kerülő szellemeket. A rácsvilág az ágens interaktív környezete. PacMan jutalmat kap az étel elfogyasztásáért, és büntetést, ha a szellem megöli (elveszíti a játékot). Az állapotok PacMan helyét jelentik a rácsvilágban, a teljes kumulatív jutalom pedig azt jelenti, hogy PacMan megnyeri a játékot.

Az optimális politika kialakításához az ágensnek azzal a dilemmával kell szembenéznie, hogy új állapotokat fedezzen fel, miközben egyidejűleg maximalizálja a jutalmát. Ezt nevezzük Exploration vs Exploitation trade-offnak.

A Markov Döntési Folyamatok (MDP-k) matematikai keretek a környezet leírására a megerősítéses tanulásban, és szinte minden RL probléma formalizálható MDP-k segítségével. Egy MDP a környezet S véges állapotainak halmazából, az egyes állapotokban lehetséges A(s) cselekvések halmazából, egy valós értékű R(s) jutalomfüggvényből és egy P(s’, s | a) átmeneti modellből áll. A valós környezetben azonban nagyobb valószínűséggel nincs előzetes tudás a környezet dinamikájáról. Ilyen esetekben jól jönnek a modellmentes RL módszerek.

A Q-tanulás egy általánosan használt modellmentes megközelítés, amely egy önjátszó PacMan-ügynök létrehozására használható. A Q-értékek frissítésének fogalma körül forog, amely az a cselekvés elvégzésének értékét jelöli az s állapotban. Az értékfrissítési szabály a Q-tanulási algoritmus lényege.

2. ábra: Erősítéses tanulás értékfrissítési szabálya

3. ábra: PacMan

Itt egy videó egy mély megerősítéses tanulási PacMan-ügynökről

  1. Melyek a leggyakrabban használt megerősítéses tanulási algoritmusok?

A Q-tanulás és a SARSA (State-Action-Reward-State-Action) két általánosan használt modellmentes RL algoritmus. Feltárási stratégiáikban különböznek, míg kihasználási stratégiáik hasonlóak. Míg a Q-learning egy off-policy módszer, amelyben az ágens egy másik politikából származtatott a* akció alapján tanulja meg az értéket, addig a SARSA egy on-policy módszer, amelyben az aktuális politikából származtatott a* akció alapján tanulja meg az értéket. Ez a két módszer egyszerűen megvalósítható, de hiányzik belőlük az általánosság, mivel nem képesek értékeket becsülni a nem látott állapotokra.

Ezt fejlettebb algoritmusokkal lehet kiküszöbölni, mint például a Deep Q-Networks, amelyek neurális hálózatokat használnak a Q-értékek becslésére. A DQN-ek azonban csak diszkrét, alacsony dimenziós akciótereket tudnak kezelni. A DDPG(Deep Deterministic Policy Gradient)egy modellmentes, politikán kívüli, szereplő-kritikus algoritmus, amely ezt a problémát úgy kezeli, hogy nagy dimenziós, folytonos akcióterekben tanul politikákat.

4. ábra: szereplő-kritikus architektúra a megerősítéses tanuláshoz

  1. Milyen gyakorlati alkalmazásai vannak a megerősítéses tanulásnak?

Mivel az RL sok adatot igényel, ezért leginkább olyan területeken alkalmazható, ahol a szimulált adatok könnyen rendelkezésre állnak, mint a játék, robotika.

  • Az RL-t elég széles körben használják a számítógépes játékokhoz való mesterséges intelligencia építésében. Az AlphaGo Zero az első számítógépes program, amely legyőzte a világbajnokot az ősi kínai Go játékban. Mások közé tartoznak az ATARI játékok, Backgammon, stb
  • A robotikában és az ipari automatizálásban az RL-t arra használják, hogy a robot hatékony adaptív vezérlőrendszert hozzon létre magának, amely tanul a saját tapasztalataiból és viselkedéséből.A DeepMind Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Policy updates című munkája jó példa erre.
  • Nézze meg ezt az érdekes bemutató videót.
  • Az RL további alkalmazásai közé tartoznak a szövegösszefoglaló motorok, a felhasználói interakciókból tanulni képes és idővel javuló párbeszéd-ügynökök (szöveg, beszéd), az optimális kezelési irányelvek tanulása az egészségügyben és az RL-alapú ügynökök az online részvénykereskedelemben.
  1. Hogyan kezdhetek bele a megerősítéses tanulásba?

Az RL alapfogalmainak megértéséhez

  • Reinforcement Learning-An Introduction, a megerősítéses tanulás atyjának, Richard Suttonnak és doktori tanácsadójának, Andrew Bartónak a könyve. A könyv online vázlata elérhető itt http://incompleteideas.net/book/the-book-2nd.html
  • Tananyag David Silvertől, beleértve a videó előadásokat is, egy nagyszerű bevezető kurzus az RL-ről
  • Itt egy másik technikai bemutató az RL-ről Pieter Abbeel és John Schulman (Open AI/ Berkeley AI Research Lab) tollából.
  • Az RL-ügynökök építésének és tesztelésének megkezdéséhez,
  • Ez a blog arról, hogyan képezzünk egy neurális hálózati ATARI Pong-ügynököt Policy Gradientekkel nyers pixelekből Andrej Karpathy által, segít abban, hogy az első Deep Reinforcement Learning-ügynököd mindössze 130 sor Python-kóddal működőképes legyen.
  • A DeepMind Lab egy nyílt forráskódú 3D játékszerű platform, amelyet az ágens alapú AI kutatáshoz hoztak létre gazdag szimulált környezetekkel.
  • A Project Malmo egy másik AI kísérletező platform az AI alapkutatás támogatására.
  • Az OpenAI gym egy eszközkészlet megerősítéses tanulási algoritmusok építésére és összehasonlítására.

Bio: Shweta Bhatt a magán- és a közszférában szerzett tapasztalattal rendelkező AI-kutató, aki szenvedélyesen érdeklődik az adatokból való tudás levezetésének hatása és alkalmazásai iránt a kihívást jelentő problémák megoldása érdekében. Szeret történeteket mesélni adatokkal és Londonban él.

Kapcsolódó:

  • A mesterséges intelligencia felemelkedése 1983-2010 között
  • Exkluzív: Interjú Rich Suttonnal, a megerősített tanulás atyjával
  • Mikor nem szabad megerősített tanulást használni?
  • Making Machine Learning Simple

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.