Par Shweta Bhatt, Youplus.

L’apprentissage par renforcement est l’un des sujets de recherche les plus chauds actuellement et sa popularité ne fait que croître de jour en jour. Examinons 5 choses utiles à savoir sur le RL.

  1. Qu’est-ce que l’apprentissage par renforcement ? Comment se rapporte-t-il à d’autres techniques ML?

L’apprentissage par renforcement(RL) est un type de technique d’apprentissage automatique qui permet à un agent d’apprendre dans un environnement interactif par essais et erreurs en utilisant les retours de ses propres actions et expériences.

Bien que l’apprentissage supervisé et l’apprentissage par renforcement utilisent tous deux la cartographie entre les entrées et les sorties, contrairement à l’apprentissage supervisé où la rétroaction fournie à l’agent est un ensemble correct d’actions pour effectuer une tâche, l’apprentissage par renforcement utilise des récompenses et des punitions comme signaux pour un comportement positif et négatif.

Par rapport à l’apprentissage non supervisé, l’apprentissage par renforcement est différent en termes d’objectifs. Alors que le but de l’apprentissage non supervisé est de trouver des similitudes et des différences entre les points de données, dans l’apprentissage par renforcement, le but est de trouver un modèle d’action approprié qui maximiserait la récompense cumulative totale de l’agent. La figure ci-dessous représente l’idée de base et les éléments impliqués dans un modèle d’apprentissage par renforcement.

Figure 1

  1. Comment formuler un problème d’apprentissage par renforcement de base ?

Certains termes clés qui décrivent les éléments d’un problème d’apprentissage par renforcement sont:

Environnement : Monde physique dans lequel l’agent opère

État : Situation actuelle de l’agent

Récompense : Feedback de l’environnement

Politique : Méthode pour mapper l’état de l’agent aux actions

Valeur : Récompense future qu’un agent recevrait en prenant une action dans un état particulier

Un problème d’apprentissage par renforcement peut être mieux expliqué par des jeux. Prenons le jeu de PacMan où le but de l’agent (PacMan) est de manger la nourriture dans la grille tout en évitant les fantômes sur son chemin. Le monde de la grille est l’environnement interactif de l’agent. PacMan reçoit une récompense s’il mange de la nourriture et une punition s’il est tué par un fantôme (il perd la partie). Les états sont l’emplacement de PacMan dans le monde de la grille et la récompense cumulative totale est PacMan gagnant le jeu.

Afin de construire une politique optimale, l’agent est confronté au dilemme d’explorer de nouveaux états tout en maximisant sa récompense en même temps. C’est ce qu’on appelle le compromis Exploration vs Exploitation.

Les processus de décision de Markov (MDP) sont des cadres mathématiques pour décrire un environnement dans l’apprentissage par renforcement et presque tous les problèmes de RL peuvent être formalisés en utilisant des MDP. Un MDP consiste en un ensemble d’états d’environnement finis S, un ensemble d’actions possibles A(s) dans chaque état, une fonction de récompense à valeur réelle R(s) et un modèle de transition P(s’, s | a). Cependant, les environnements du monde réel sont plus susceptibles de ne pas avoir de connaissance préalable de la dynamique de l’environnement. Les méthodes RL sans modèle sont pratiques dans de tels cas.

L’apprentissage Q est une approche sans modèle couramment utilisée qui peut être utilisée pour construire un agent PacMan auto-joueur. Elle tourne autour de la notion de mise à jour des valeurs Q qui dénote la valeur de faire l’action a dans l’état s. La règle de mise à jour des valeurs est le cœur de l’algorithme de Q-learning.

Figure 2 : Règle de mise à jour de l’apprentissage par renforcement

Figure 3 : PacMan

Voici une vidéo d’un agent PacMan en apprentissage par renforcement profond

  1. Quels sont les algorithmes d’apprentissage par renforcement les plus utilisés ?

L’apprentissage Q et SARSA (État-action-récompense-état-action) sont deux algorithmes d’apprentissage par renforcement sans modèle couramment utilisés. Ils diffèrent en termes de stratégies d’exploration alors que leurs stratégies d’exploitation sont similaires. Alors que Q-learning est une méthode hors politique dans laquelle l’agent apprend la valeur basée sur l’action a* dérivée d’une autre politique, SARSA est une méthode sur politique où il apprend la valeur basée sur son action actuelle dérivée de sa politique actuelle. Ces deux méthodes sont simples à mettre en œuvre mais manquent de généralité car elles n’ont pas la capacité d’estimer des valeurs pour des états non vus.

Cela peut être surmonté par des algorithmes plus avancés tels que les Deep Q-Networks qui utilisent des réseaux neuronaux pour estimer les valeurs Q. Mais les DQN ne peuvent traiter que des espaces d’action discrets et de faible dimension. DDPG(Deep Deterministic Policy Gradient)est un algorithme actor-critic sans modèle, hors politique, qui s’attaque à ce problème en apprenant des politiques dans des espaces d’action continus de haute dimension.

Figure 4 : architecture actor-critic pour l’apprentissage par renforcement

  1. Quelles sont les applications pratiques de l’apprentissage par renforcement ?

Puisque, RL nécessite beaucoup de données, donc il est plus applicable dans les domaines où les données simulées sont facilement disponibles comme le jeu, la robotique.

  • RL est assez largement utilisé dans la construction d’IA pour jouer à des jeux informatiques. AlphaGo Zero est le premier programme informatique à avoir battu un champion du monde dans l’ancien jeu chinois du Go. D’autres incluent les jeux ATARI, le Backgammon, etc
  • Dans la robotique et l’automatisation industrielle,RL est utilisé pour permettre au robot de créer un système de contrôle adaptatif efficace pour lui-même qui apprend de sa propre expérience et de son comportement.Le travail de DeepMind sur l’apprentissage profond de renforcement pour la manipulation robotique avec des mises à jour de politique asynchrones est un bon exemple de la même chose.
  • Voyez cette vidéo de démonstration intéressante.
  • D’autres applications de RL comprennent des moteurs de résumé de texte, des agents de dialogue (texte, parole) qui peuvent apprendre des interactions de l’utilisateur et s’améliorer avec le temps, l’apprentissage de politiques de traitement optimales dans les soins de santé et des agents basés sur RL pour le commerce boursier en ligne.
  1. Comment puis-je commencer avec l’apprentissage par renforcement ?

Pour comprendre les concepts de base de RL,

  • Reinforcement Learning-An Introduction, un livre du père de l’apprentissage par renforcement- Richard Sutton et son conseiller doctoral Andrew Barto. Une ébauche en ligne du livre est disponible ici http://incompleteideas.net/book/the-book-2nd.html
  • Matériel d’enseignementde David Silver comprenant des conférences vidéo est un excellent cours d’introduction sur RL
  • Voici un autre tutoriel technique sur RL par Pieter Abbeel et John Schulman (Open AI/ Berkeley AI Research Lab).
  • Pour commencer à construire et tester des agents RL,
  • Ce blog sur la façon de former un agent ATARI Pong à réseau neuronal avec des gradients de politique à partir de pixels bruts par Andrej Karpathy vous aidera à obtenir votre premier agent d’apprentissage par renforcement profond opérationnel en seulement 130 lignes de code Python.
  • DeepMind Lab est une plateforme open source de type jeu 3D créée pour la recherche en IA basée sur des agents avec des environnements simulés riches.
  • Le projet Malmo est une autre plateforme d’expérimentation en IA pour soutenir la recherche fondamentale en IA.
  • OpenAI gym est une boîte à outils pour construire et comparer des algorithmes d’apprentissage par renforcement.

Bio : Shweta Bhatt est chercheur en IA avec une expérience dans le secteur privé et public, passionnée par l’impact et les applications de la dérivation des connaissances à partir de données pour résoudre des problèmes difficiles. Elle aime raconter des histoires avec des données et est basée à Londres.

Related:

  • Résurgence de l’IA au cours de la période 1983-2010
  • Exclusif : Entretien avec Rich Sutton, le père de l’apprentissage par renforcement
  • Quand l’apprentissage par renforcement ne devrait pas être utilisé ?
  • Making Machine Learning Simple

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.