By Shweta Bhatt, Youplus.

Vahvistusoppiminen on yksi kuumimmista tutkimusaiheista tällä hetkellä, ja sen suosio vain kasvaa päivä päivältä. Katsotaanpa 5 hyödyllistä asiaa, jotka kannattaa tietää RL:stä.

  1. Mitä on vahvistusoppiminen? Miten se liittyy muihin ML-tekniikoihin?

Vahvistusoppiminen (RL) on eräänlainen koneoppimistekniikka, jonka avulla agentti voi oppia vuorovaikutteisessa ympäristössä kokeilemalla ja erehtymällä käyttäen palautetta omista toimistaan ja kokemuksistaan.

Vaikka sekä valvotussa että vahvistusoppimisessa käytetään syötteen ja tuotoksen välistä kartoitusta, toisin kuin valvotussa oppimisessa, jossa agentille annettavana palautteena on oikea joukko toimintoja tehtävän suorittamiseksi, vahvistusoppimisessa käytetään palkintoja ja rangaistuksia signaaleina positiivisesta ja negatiivisesta käyttäytymisestä.

Vertailtuna valvomattomaan oppimiseen vahvistusoppiminen eroaa tavoitteiltaan. Kun valvomattomassa oppimisessa tavoitteena on löytää yhtäläisyyksiä ja eroja datapisteiden välillä, vahvistusoppimisessa tavoitteena on löytää sopiva toimintamalli, joka maksimoi agentin kumulatiivisen kokonaispalkkion. Alla oleva kuva esittää vahvistusoppimisen mallin perusidean ja siihen liittyvät elementit.

Kuva 1

  1. Miten muotoillaan vahvistusoppimisen perusongelma?

Joitakin keskeisiä termejä, jotka kuvaavat vahvistusoppimisen ongelman elementtejä, ovat:

Ympäristö: Fyysinen maailma, jossa agentti toimii

Tila: Agentin tämänhetkinen tilanne

Palkinto: Ympäristöstä saatu palaute

Politiikka: Menetelmä, jolla agentin tila kuvataan toiminnoiksi

Value: Tulevaisuuden palkkio, jonka agentti saisi tekemällä toiminnon tietyssä tilassa

Vahvistusoppimisen ongelma voidaan selittää parhaiten pelien avulla. Otetaan vaikka PacMan-peli, jossa agentin (PacMan) tavoitteena on syödä ruudukossa oleva ruoka välttäen samalla matkalla olevia haamuja. Ruudukkomaailma on agentin vuorovaikutteinen ympäristö. PacMan saa palkkion ruoan syömisestä ja rangaistuksen, jos se joutuu aaveen tappamaksi (häviää pelin). Tilat ovat PacManin sijainnit ruudukkomaailmassa, ja kumulatiivinen kokonaispalkkio on PacManin voitto pelissä.

Optimaalisen politiikan luomiseksi agentti joutuu dilemman eteen, kun sen on tutkittava uusia tiloja ja maksimoitava samalla palkkionsa. Tätä kutsutaan Exploration vs Exploitation trade-offiksi.

Markovin päätöksentekoprosessit (MDP) ovat matemaattisia kehyksiä ympäristön kuvaamiseen vahvistusoppimisessa, ja lähes kaikki RL-ongelmat voidaan formalisoida MDP:n avulla. MDP koostuu joukosta äärellisiä ympäristön tiloja S, joukosta mahdollisia toimia A(s) kussakin tilassa, reaaliarvoisesta palkitsemisfunktiosta R(s) ja siirtymämallista P(s’, s | a). Todellisissa ympäristöissä on kuitenkin todennäköisempää, että ympäristön dynamiikasta ei ole ennakkotietoa. Mallittomat RL-menetelmät ovat käteviä tällaisissa tapauksissa.

Q-oppiminen on yleisesti käytetty malliton lähestymistapa, jota voidaan käyttää itseään pelaavan PacMan-agentin rakentamiseen. Se pyörii Q-arvojen päivittämisen käsitteen ympärillä, joka tarkoittaa toiminnan a tekemisen arvoa tilassa s. Arvojen päivityssääntö on Q-oppimisalgoritmin ydin.

Kuva 2: Vahvistusoppimisen päivityssääntö

Kuva 3: PacMan

Tässä on video syvästi vahvistusoppivasta PacMan-agentista

  1. Mitä käytetyimpiä vahvistusoppimisen algoritmeja on?

Q-oppiminen ja SARSA (State-Action-Reward-State-Action) ovat kaksi yleisesti käytettyä mallitonta RL-algoritmia. Ne eroavat toisistaan etsintästrategioidensa osalta, kun taas niiden hyödyntämisstrategiat ovat samankaltaisia. Q-learning on off-policy-menetelmä, jossa agentti oppii arvon, joka perustuu toisesta politiikasta johdettuun toimintaan a*, kun taas SARSA on on-policy-menetelmä, jossa agentti oppii arvon, joka perustuu sen nykyisestä politiikasta johdettuun nykyiseen toimintaan a*. Nämä kaksi menetelmää ovat yksinkertaisia toteuttaa, mutta niistä puuttuu yleispätevyys, koska niillä ei ole kykyä arvioida arvoja näkymättömille tiloille.

Tämä voidaan ratkaista edistyneemmillä algoritmeilla, kuten Deep Q-Networks -menetelmillä, jotka käyttävät neuroverkkoja Q-arvojen estimointiin. DQN:t voivat kuitenkin käsitellä vain diskreettejä, matalaulotteisia toiminta-avaruuksia. DDPG(Deep Deterministic Policy Gradient)on malliton, ei-poliittinen, toimijakriittinen algoritmi, joka ratkaisee tämän ongelman oppimalla politiikkoja korkea-ulotteisissa, jatkuvissa toiminta-avaruuksissa.

Kuvio 4: toimijakriittinen arkkitehtuuri vahvistusoppimiselle

  1. Mitä käytännön sovelluksia vahvistusoppimisella on?

Sen vuoksi, että RL vaatii paljon dataa, se soveltuu parhaiten aloille, joilla simuloitua dataa on helposti saatavilla, kuten pelaamiseen ja robotiikkaan.

  • RL:ää käytetään melko laajalti tekoälyn rakentamiseen tietokonepelejä varten. AlphaGo Zero on ensimmäinen tietokoneohjelma, joka voitti maailmanmestarin muinaisessa kiinalaisessa Go-pelissä. Muita ovat ATARI-pelit, Backgammon jne.
  • Robotiikassa ja teollisuusautomaatiossa RL:n avulla robotti voi luoda itselleen tehokkaan adaptiivisen ohjausjärjestelmän, joka oppii omasta kokemuksestaan ja käyttäytymisestään.DeepMindin työ Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Policy updates on hyvä esimerkki samasta.
  • Katsokaa tämä mielenkiintoinen demovideo.
  • Muita RL:n sovelluksia ovat muun muassa tekstin tiivistämismoottorit, dialogiagentit (teksti, puhe), jotka voivat oppia käyttäjän vuorovaikutuksesta ja kehittyä ajan myötä, optimaalisten hoitokäytäntöjen oppiminen terveydenhuollossa ja RL-pohjaiset agentit online-pörssikauppaa varten.
  1. Miten pääsen alkuun vahvistusoppimisessa?

Vahvistusoppimisen peruskäsitteiden ymmärtämiseksi

  • Reinforcement Learning-An Introduction, vahvistusoppimisen isän Richard Suttonin ja hänen väitöskirjaohjaajansa Andrew Barton kirja. Kirjan verkkoluonnos on saatavilla täältä http://incompleteideas.net/book/the-book-2nd.html
  • OpetusmateriaaliDavid Silveriltä sisältäen videoluentoja on loistava johdantokurssi RL:stä
  • Tässä on toinen tekninen tutoriaalikurssi RL:stä, jonka ovat laatineet Pieter Abbeel ja John Schulman (Avoin tekoäly/ Berkeleyn tekoälytutkimuslaboratorio).
  • Jos haluat päästä alkuun RL-agenttien rakentamisessa ja testaamisessa,
  • Tämä Andrej Karpathyn kirjoittama blogi siitä, miten treenata neuraaliverkon ATARI Pong -agentti Policy Gradientsin avulla raa’ista pikseleistä, auttaa sinua saamaan ensimmäisen syvän vahvistusoppimisen (Deep Reinforcement Learning) agenttisi pystyyn ja toimimaan vain 130 rivillä Python-koodia.
  • DeepMind Lab on avoimen lähdekoodin 3D-pelimäinen alusta, joka on luotu agenttipohjaiseen tekoälytutkimukseen rikkailla simuloitavilla ympäristöillä.
  • Project Malmo on toinen tekoälyn kokeilualusta, jolla tuetaan tekoälyn perustutkimusta.
  • OpenAI-jumppasali on työkalupakki, jonka avulla voi rakentaa ja vertailla vahvistusoppimisalgoritmeja.

Bio: Shweta Bhatt on tekoälytutkija, jolla on kokemusta yksityiseltä ja julkiselta sektorilta ja joka suhtautuu intohimoisesti datasta saatavan tiedon vaikutuksiin ja sovelluksiin haastavien ongelmien ratkaisemiseksi. Hän tykkää kertoa tarinoita datan avulla ja asuu Lontoossa.

Related:

  • Tekoälyn nousu vuosina 1983-2010
  • Exklusiivinen: Haastattelu Rich Suttonin, vahvistusoppimisen isän, kanssa
  • Milloin vahvistusoppimista ei pitäisi käyttää?
  • Making Machine Learning Simple

Vastaa

Sähköpostiosoitettasi ei julkaista.