av Shweta Bhatt, Youplus.

Förstärkningsinlärning är ett av de hetaste forskningsämnena för närvarande och dess popularitet ökar dag för dag. Låt oss titta på 5 användbara saker att veta om RL.

  1. Vad är förstärkningsinlärning? Hur förhåller det sig till andra ML-tekniker?

Reinforcement Learning (RL) är en typ av maskininlärningsteknik som gör det möjligt för en agent att lära sig i en interaktiv miljö genom försök och misstag med hjälp av återkoppling från sina egna handlingar och erfarenheter.

Och även om både övervakad och förstärkningsinlärning använder mappning mellan input och output, använder förstärkningsinlärning, till skillnad från övervakad inlärning där återkopplingen till agenten är en korrekt uppsättning åtgärder för att utföra en uppgift, belöningar och bestraffningar som signaler för positivt och negativt beteende.

I jämförelse med icke övervakad inlärning skiljer sig förstärkningsinlärning åt när det gäller målen. Medan målet vid oövervakad inlärning är att hitta likheter och skillnader mellan datapunkter är målet vid förstärkningsinlärning att hitta en lämplig handlingsmodell som skulle maximera agentens totala kumulativa belöning. Figuren nedan visar den grundläggande idén och de element som ingår i en modell för förstärkningsinlärning.

Figur 1

  1. Hur formulerar man ett grundläggande förstärkningsinlärningsproblem?

Några nyckeltermer som beskriver elementen i ett förstärkningsinlärningsproblem är:

Miljö: Fysisk värld där agenten verkar

State: Agentens nuvarande situation

Belöning: Återkoppling från omgivningen

Policy: Metod för att mappa agentens tillstånd till åtgärder

Värde: Framtida belöning som agenten skulle få genom att vidta en åtgärd i ett visst tillstånd

Ett problem med förstärkningsinlärning kan bäst förklaras med hjälp av spel. Låt oss ta spelet PacMan där målet för agenten (PacMan) är att äta upp maten i rutnätet och samtidigt undvika spökena på vägen. Nätvärlden är agentens interaktiva miljö. PacMan får en belöning om han äter mat och ett straff om han dödas av ett spöke (förlorar spelet). Tillstånden är PacMans placering i rutnätsvärlden och den totala kumulativa belöningen är att PacMan vinner spelet.

För att bygga upp en optimal policy står agenten inför dilemmat att utforska nya tillstånd och samtidigt maximera sin belöning. Detta kallas för en avvägning mellan utforskning och exploatering.

Markov Decision Processes (MDPs) är matematiska ramar för att beskriva en miljö i förstärkningsinlärning och nästan alla RL-problem kan formaliseras med hjälp av MDPs. En MDP består av en uppsättning ändliga miljötillstånd S, en uppsättning möjliga åtgärder A(s) i varje tillstånd, en realvärderad belöningsfunktion R(s) och en övergångsmodell P(s’, s | a). I verkliga miljöer är det dock mer troligt att det inte finns någon förhandskunskap om miljöns dynamik. Modellfria RL-metoder är praktiska i sådana fall.

Q-learning är en vanligt förekommande modellfri metod som kan användas för att bygga en självspelande PacMan-agent. Den kretsar kring begreppet uppdatering av Q-värden som anger värdet av att utföra en åtgärd a i tillstånd s. Värdeuppdateringsregeln är kärnan i Q-lärningsalgoritmen.

Figur 2: Uppdateringsregel för förstärkningslärande

Figur 3: PacMan

Här är en video med en djup förstärkningslärande PacMan-agent

  1. Vilka algoritmer för förstärkningslärande används mest?

Q-learning och SARSA (State-Action-Reward-State-Action) är två vanligt förekommande modellfria RL-algoritmer. De skiljer sig åt när det gäller deras utforskningsstrategier medan deras utnyttjandestrategier är likartade. Medan Q-learning är en metod utanför politiken där agenten lär sig värdet baserat på åtgärd a* som härrör från en annan politik, är SARSA en metod inom politiken där agenten lär sig värdet baserat på sin nuvarande åtgärd a som härrör från sin nuvarande politik. Dessa två metoder är enkla att genomföra men saknar generalitet eftersom de inte har möjlighet att uppskatta värden för osynliga tillstånd.

Detta kan övervinnas genom mer avancerade algoritmer som Deep Q-Networks som använder neurala nätverk för att uppskatta Q-värden. Men DQNs kan endast hantera diskreta, lågdimensionella handlingsutrymmen. DDPG (Deep Deterministic Policy Gradient) är en modellfri, icke-politisk, aktörskritisk algoritm som tar itu med detta problem genom att lära sig strategier i högdimensionella, kontinuerliga handlingsutrymmen.

Figur 4: aktörskritisk arkitektur för förstärkningsinlärning

  1. Vilka praktiska tillämpningar av förstärkningsinlärning finns det?

Då RL kräver mycket data är det mest tillämpbart inom områden där simulerade data är lättillgängliga, t.ex. spel och robotteknik.

  • RL används i stor utsträckning för att bygga AI för att spela datorspel. AlphaGo Zero är det första datorprogram som har besegrat en världsmästare i det gamla kinesiska spelet Go. Andra inkluderar ATARI-spel, Backgammon, etc
  • I robotik och industriell automation används RL för att göra det möjligt för roboten att skapa ett effektivt adaptivt kontrollsystem för sig själv som lär sig av sin egen erfarenhet och sitt eget beteende.DeepMinds arbete med Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Policy updates är ett bra exempel på samma sak.
  • Klipp på denna intressanta demonstrationsvideo.
  • Andra tillämpningar av RL omfattar motorer för textsammanfattningar, dialogagenter (text, tal) som kan lära sig av användarinteraktioner och förbättras med tiden, inlärning av optimala behandlingsstrategier inom hälso- och sjukvården och RL-baserade agenter för aktiehandel online.
  1. Hur kan jag komma igång med förstärkningsinlärning?

För att förstå de grundläggande begreppen för RL,

  • Reinforcement Learning-An Introduction, en bok av fadern till förstärkningsinlärning- Richard Sutton och hans doktorandrådgivare Andrew Barto. Ett utkast till boken finns online här http://incompleteideas.net/book/the-book-2nd.html
  • Undervisningsmaterial från David Silver, inklusive videoföreläsningar, är en utmärkt introduktionskurs om RL
  • Här finns en annan teknisk handledning om RL av Pieter Abbeel och John Schulman (Open AI/ Berkeley AI Research Lab).
  • För att komma igång med att bygga och testa RL-agenter
  • Den här bloggen om hur man tränar en Neural Network ATARI Pong-agent med Policy Gradients från råa pixlar av Andrej Karpathy kommer att hjälpa dig att få din första Deep Reinforcement Learning-agent igång på bara 130 rader Pythonkod.
  • DeepMind Lab är en 3D-spelliknande plattform med öppen källkod som skapats för agentbaserad AI-forskning med rika simulerade miljöer.
  • Project Malmo är en annan AI-experimenteringsplattform för att stödja grundforskning inom AI.
  • OpenAI gym är en verktygslåda för att bygga och jämföra förstärkningsinlärningsalgoritmer.

Bio: Shweta Bhatt är AI-forskare med erfarenhet från den privata och offentliga sektorn och brinner för effekterna och tillämpningarna av att få fram kunskap från data för att lösa utmanande problem. Hon gillar att berätta historier med data och är baserad i London.

Relaterat:

  • Ansamling av artificiell intelligens under 1983-2010
  • Exklusivt: Intervju med Rich Sutton, fadern till förstärkningsinlärning
  • När förstärkningsinlärning inte bör användas?
  • Making Machine Learning Simple

Lämna ett svar

Din e-postadress kommer inte publiceras.