5 Dinge, die Sie über Reinforcement Learning wissen müssen

Von Shweta Bhatt, Youplus.

Reinforcement Learning ist derzeit eines der heißesten Forschungsthemen und seine Popularität wächst von Tag zu Tag. Sehen wir uns 5 nützliche Dinge an, die man über RL wissen sollte.

Was ist Reinforcement Learning? Wie verhält es sich zu anderen ML-Techniken?

Reinforcement Learning (RL) ist eine Technik des maschinellen Lernens, die es einem Agenten ermöglicht, in einer interaktiven Umgebung durch Versuch und Irrtum zu lernen, indem er Rückmeldungen aus seinen eigenen Aktionen und Erfahrungen nutzt.

Obgleich sowohl das überwachte als auch das verstärkende Lernen ein Mapping zwischen Input und Output verwenden, werden beim verstärkenden Lernen im Gegensatz zum überwachten Lernen, bei dem das Feedback an den Agenten aus einer Reihe von korrekten Aktionen für die Ausführung einer Aufgabe besteht, Belohnungen und Bestrafungen als Signale für positives und negatives Verhalten verwendet.

Im Vergleich zum unüberwachten Lernen unterscheidet sich das verstärkende Lernen in Bezug auf die Ziele. Während das Ziel beim unüberwachten Lernen darin besteht, Ähnlichkeiten und Unterschiede zwischen Datenpunkten zu finden, ist es beim Reinforcement Learning das Ziel, ein geeignetes Handlungsmodell zu finden, das die gesamte kumulative Belohnung des Agenten maximiert. Die folgende Abbildung zeigt die Grundidee und die Elemente eines Reinforcement-Learning-Modells.

Abbildung 1

Wie formuliert man ein grundlegendes Reinforcement-Learning-Problem?

Einige Schlüsselbegriffe, die die Elemente eines RL-Problems beschreiben, sind:

Umgebung: Physische Welt, in der der Agent agiert

Zustand: Aktuelle Situation des Agenten

Belohnung: Rückmeldung aus der Umwelt

Politik: Methode, um den Zustand des Agenten auf Aktionen abzubilden

Value: Zukünftige Belohnung, die ein Agent erhält, wenn er in einem bestimmten Zustand eine Aktion ausführt

Ein Reinforcement Learning-Problem lässt sich am besten durch Spiele erklären. Nehmen wir das Spiel PacMan, bei dem das Ziel des Agenten (PacMan) darin besteht, das Essen im Gitter zu essen und dabei den Geistern auf seinem Weg auszuweichen. Die Gitterwelt ist die interaktive Umgebung für den Agenten. PacMan erhält eine Belohnung für das Essen und eine Bestrafung, wenn er von einem Geist getötet wird (er verliert das Spiel). Die Zustände sind die Orte, an denen sich PacMan in der Gitterwelt befindet, und die gesamte kumulative Belohnung ist der Gewinn des Spiels durch PacMan.

Um eine optimale Strategie zu entwickeln, steht der Agent vor dem Dilemma, neue Zustände zu erkunden und gleichzeitig seine Belohnung zu maximieren. Dies wird als Exploration vs. Exploitation trade-off bezeichnet.

Markov Decision Processes (MDPs) sind mathematische Rahmen zur Beschreibung einer Umgebung beim Reinforcement Learning und fast alle RL-Probleme können mit MDPs formalisiert werden. Ein MDP besteht aus einer Menge von endlichen Umgebungszuständen S, einer Menge von möglichen Aktionen A(s) in jedem Zustand, einer reellwertigen Belohnungsfunktion R(s) und einem Übergangsmodell P(s‘, s | a). In der realen Welt ist es jedoch wahrscheinlicher, dass keine Vorkenntnisse über die Dynamik der Umgebung vorhanden sind. In solchen Fällen bieten sich modellfreie RL-Methoden an.

Q-Lernen ist ein weit verbreiteter modellfreier Ansatz, der für den Aufbau eines selbstspielenden PacMan-Agenten verwendet werden kann. Es dreht sich um den Begriff der Aktualisierung von Q-Werten, der den Wert der Ausführung von Aktion a im Zustand s bezeichnet. Die Wertaktualisierungsregel ist der Kern des Q-Learning-Algorithmus.

Abbildung 2: Reinforcement Learning Update Rule

Abbildung 3: PacMan

Hier ist ein Video eines Deep Reinforcement Learning PacMan Agenten

Welche sind die am häufigsten verwendeten Reinforcement Learning Algorithmen?

Q-learning und SARSA (State-Action-Reward-State-Action) sind zwei häufig verwendete modellfreie RL-Algorithmen. Sie unterscheiden sich in ihren Explorationsstrategien, während ihre Verwertungsstrategien ähnlich sind. Während Q-learning eine Off-Policy-Methode ist, bei der der Agent den Wert auf der Grundlage der Aktion a* lernt, die aus einer anderen Policy abgeleitet wurde, ist SARSA eine On-Policy-Methode, bei der er den Wert auf der Grundlage seiner aktuellen Aktion lernt, die aus seiner aktuellen Policy abgeleitet wurde. Diese beiden Methoden sind einfach zu implementieren, aber es mangelt ihnen an Allgemeinheit, da sie nicht in der Lage sind, Werte für ungesehene Zustände zu schätzen.

Dies kann durch fortgeschrittenere Algorithmen wie Deep Q-Networks überwunden werden, die neuronale Netze zur Schätzung von Q-Werten verwenden. DQNs können jedoch nur mit diskreten, niedrigdimensionalen Aktionsräumen umgehen. DDPG (Deep Deterministic Policy Gradient) ist ein modellfreier, akteurskritischer Algorithmus, der dieses Problem durch das Lernen von Strategien in hochdimensionalen, kontinuierlichen Aktionsräumen angeht.

Abbildung 4: akteurskritische Architektur für Reinforcement Learning

Welche praktischen Anwendungen gibt es für Reinforcement Learning?

Da RL eine Menge Daten benötigt, ist es am besten in Bereichen anwendbar, in denen simulierte Daten leicht verfügbar sind, wie z.B. in der Spiel- und Robotertechnik.

RL wird häufig bei der Entwicklung von KI für Computerspiele eingesetzt. AlphaGo Zero ist das erste Computerprogramm, das einen Weltmeister im alten chinesischen Spiel Go besiegt hat. Andere Spiele sind ATARI-Spiele, Backgammon usw.
In der Robotik und Industrieautomatisierung wird RL verwendet, um den Roboter in die Lage zu versetzen, ein effizientes adaptives Steuerungssystem für sich selbst zu schaffen, das aus seinen eigenen Erfahrungen und seinem Verhalten lernt. Die Arbeit von DeepMind an Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Policy Updates ist ein gutes Beispiel dafür.
Andere Anwendungen von RL sind z.B. Textzusammenfassungsmaschinen, Dialogagenten (Text, Sprache), die aus Benutzerinteraktionen lernen und sich mit der Zeit verbessern können, das Lernen optimaler Behandlungsstrategien im Gesundheitswesen und RL-basierte Agenten für den Online-Aktienhandel.

Wie kann ich mit Reinforcement Learning beginnen?

Um die grundlegenden Konzepte von RL zu verstehen,

Reinforcement Learning-An Introduction, ein Buch vom Vater des Reinforcement Learning- Richard Sutton und seinem Doktorvater Andrew Barto. Ein Online-Entwurf des Buches ist hier verfügbar http://incompleteideas.net/book/the-book-2nd.html
Lehrmaterial von David Silver mit Videovorträgen ist ein großartiger Einführungskurs in RL
Hier ist ein weiteres technisches Tutorial über RL von Pieter Abbeel und John Schulman (Open AI/ Berkeley AI Research Lab).
Für den Einstieg in den Aufbau und das Testen von RL-Agenten
Dieser Blog von Andrej Karpathy über das Trainieren eines Neural Network ATARI Pong Agenten mit Policy Gradients aus rohen Pixeln wird Ihnen helfen, Ihren ersten Deep Reinforcement Learning Agenten in nur 130 Zeilen Python-Code zum Laufen zu bringen.
DeepMind Lab ist eine quelloffene, spielähnliche 3D-Plattform für agentenbasierte KI-Forschung mit reichhaltigen simulierten Umgebungen.
Project Malmo ist eine weitere KI-Experimentierplattform zur Unterstützung der KI-Grundlagenforschung.
OpenAI Gym ist ein Toolkit zum Erstellen und Vergleichen von Reinforcement Learning Algorithmen.

Bio: Shweta Bhatt ist KI-Forscherin mit Erfahrung im privaten und öffentlichen Sektor und begeistert sich für die Auswirkungen und Anwendungen der Ableitung von Wissen aus Daten zur Lösung anspruchsvoller Probleme. Sie erzählt gerne Geschichten mit Daten und lebt in London.

Verwandtes:

Wiederaufstieg der KI zwischen 1983 und 2010
Exklusiv: Interview mit Rich Sutton, dem Vater des Reinforcement Learning
Wann sollte Reinforcement Learning nicht verwendet werden?
Mach maschinelles Lernen einfach

KDnuggets

Schreibe einen Kommentar Antworten abbrechen