Por Shweta Bhatt, Youplus.

El aprendizaje por refuerzo es uno de los temas de investigación más candentes actualmente y su popularidad no hace más que crecer día a día. Veamos 5 cosas útiles que hay que saber sobre el RL.

  1. ¿Qué es el aprendizaje por refuerzo? Cómo se relaciona con otras técnicas de ML?

El aprendizaje por refuerzo (RL) es un tipo de técnica de aprendizaje automático que permite a un agente aprender en un entorno interactivo por ensayo y error utilizando la retroalimentación de sus propias acciones y experiencias.

Aunque tanto el aprendizaje supervisado como el de refuerzo utilizan el mapeo entre la entrada y la salida, a diferencia del aprendizaje supervisado en el que la retroalimentación proporcionada al agente es un conjunto correcto de acciones para realizar una tarea, el aprendizaje de refuerzo utiliza recompensas y castigos como señales para el comportamiento positivo y negativo.

En comparación con el aprendizaje no supervisado, el aprendizaje de refuerzo es diferente en términos de objetivos. Mientras que el objetivo en el aprendizaje no supervisado es encontrar similitudes y diferencias entre puntos de datos, en el aprendizaje por refuerzo el objetivo es encontrar un modelo de acción adecuado que maximice la recompensa total acumulada del agente. La figura siguiente representa la idea básica y los elementos que intervienen en un modelo de aprendizaje por refuerzo.

Figura 1

  1. ¿Cómo formular un problema básico de aprendizaje por refuerzo?

Algunos términos clave que describen los elementos de un problema de RL son:

Entorno: Mundo físico en el que opera el agente

Estado: Situación actual del agente

Recompensa: Retroalimentación del entorno

Política: Método para asignar el estado del agente a las acciones

Valor: Recompensa futura que recibiría un agente al realizar una acción en un estado concreto

Un problema de Aprendizaje por Refuerzo se puede explicar mejor a través de juegos. Tomemos el juego de PacMan en el que el objetivo del agente (PacMan) es comer la comida en la cuadrícula mientras evita los fantasmas en su camino. El mundo de la cuadrícula es el entorno interactivo para el agente. PacMan recibe una recompensa por comer comida y un castigo si es asesinado por el fantasma (pierde el juego). Los estados son la ubicación de PacMan en el mundo cuadriculado y la recompensa total acumulada es que PacMan gane el juego.

Para construir una política óptima, el agente se enfrenta al dilema de explorar nuevos estados mientras maximiza su recompensa al mismo tiempo. Esto se llama trade-off de Exploración vs Explotación.

Los Procesos de Decisión de Markov (MDP) son marcos matemáticos para describir un entorno en el aprendizaje por refuerzo y casi todos los problemas de RL pueden ser formalizados usando MDP. Un MDP consiste en un conjunto de estados finitos del entorno S, un conjunto de posibles acciones A(s) en cada estado, una función de recompensa de valor real R(s) y un modelo de transición P(s’, s | a). Sin embargo, es más probable que los entornos del mundo real carezcan de cualquier conocimiento previo de la dinámica del entorno. Los métodos de RL sin modelo son útiles en estos casos.

El aprendizaje Q es un enfoque sin modelo comúnmente utilizado que puede usarse para construir un agente PacMan autojugable. Gira en torno a la noción de actualización de valores Q que denota el valor de hacer una acción a en el estado s. La regla de actualización de valores es el núcleo del algoritmo de aprendizaje Q.

Figura 2: Regla de actualización del aprendizaje por refuerzo

Figura 3: PacMan

Aquí tienes un vídeo de un agente PacMan de aprendizaje por refuerzo profundo

  1. ¿Cuáles son algunos de los algoritmos de aprendizaje por refuerzo más utilizados?

El aprendizaje Q y el SARSA (Estado-Acción-Recompensa-Estado-Acción) son dos algoritmos de RL sin modelo comúnmente utilizados. Se diferencian en cuanto a sus estrategias de exploración mientras que sus estrategias de explotación son similares. Mientras que el aprendizaje Q es un método fuera de la política en el que el agente aprende el valor basado en la acción a* derivada de la otra política, SARSA es un método dentro de la política en el que aprende el valor basado en su acción actual aderivada de su política actual. Estos dos métodos son sencillos de implementar pero carecen de generalidad ya que no tienen la capacidad de estimar valores para estados no vistos.

Esto puede ser superado por algoritmos más avanzados como las Redes Q Profundas que utilizan Redes Neuronales para estimar los valores Q. Pero las DQNs sólo pueden manejar espacios de acción discretos y de baja dimensión. El DDPG (Deep Deterministic Policy Gradient) es un algoritmo actor-crítico sin modelo que aborda este problema mediante el aprendizaje de políticas en espacios de acción continuos y de alta dimensión.

Figura 4: arquitectura actor-crítica para el Aprendizaje por Refuerzo

  1. ¿Cuáles son las aplicaciones prácticas del Aprendizaje por Refuerzo?

Dado que, el RL requiere una gran cantidad de datos, por lo tanto es más aplicable en dominios donde los datos simulados están fácilmente disponibles como el juego, la robótica.

  • El RL es bastante utilizado en la construcción de IA para jugar a juegos de ordenador. AlphaGo Zero es el primer programa informático que derrotó a un campeón mundial en el antiguo juego chino del Go. Otros incluyen juegos de ATARI, Backgammon, etc
  • En robótica y automatización industrial,RL se utiliza para que el robot pueda crear un sistema de control adaptativo eficiente para sí mismo que aprenda de su propia experiencia y comportamiento.El trabajo de DeepMind en Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Policy updates es un buen ejemplo de lo mismo.
  • Mira este interesante vídeo de demostración.
  • Otras aplicaciones de RL incluyen motores de resumen de texto, agentes de diálogo (texto, voz) que pueden aprender de las interacciones del usuario y mejorar con el tiempo, aprendizaje de políticas de tratamiento óptimas en la asistencia sanitaria y agentes basados en RL para el comercio de acciones en línea.
  1. ¿Cómo puedo iniciarme en el aprendizaje por refuerzo?

Para entender los conceptos básicos de la RL,

  • Reinforcement Learning-An Introduction (Aprendizaje por refuerzo: una introducción), un libro escrito por el padre del aprendizaje por refuerzo -Richard Sutton- y su asesor doctoral Andrew Barto. Un borrador en línea del libro está disponible aquí http://incompleteideas.net/book/the-book-2nd.html
  • El material didáctico de David Silver, que incluye conferencias en vídeo, es un gran curso introductorio sobre RL
  • Aquí hay otro tutorial técnico sobre RL por Pieter Abbeel y John Schulman (Open AI/ Berkeley AI Research Lab).
  • Para iniciarse en la construcción y prueba de agentes RL,
  • Este blog sobre cómo entrenar un agente ATARI Pong de red neuronal con gradientes de política a partir de píxeles en bruto por Andrej Karpathy le ayudará a conseguir su primer agente de aprendizaje de refuerzo profundo en sólo 130 líneas de código Python.
  • DeepMind Lab es una plataforma de código abierto similar a un juego en 3D creada para la investigación de la IA basada en agentes con ricos entornos simulados.
  • Project Malmo es otra plataforma de experimentación de IA para apoyar la investigación fundamental en IA.
  • OpenAI gym es un kit de herramientas para construir y comparar algoritmos de aprendizaje de refuerzo.

Bio: Shweta Bhatt es investigadora de IA con experiencia en el sector privado y público, apasionada por el impacto y las aplicaciones de derivar conocimiento de los datos para resolver problemas desafiantes. Le gusta contar historias con datos y vive en Londres.

Relacionado:

  • El resurgimiento de la IA durante 1983-2010
  • En exclusiva: Entrevista con Rich Sutton, el padre del aprendizaje por refuerzo
  • ¿Cuándo no se debe utilizar el aprendizaje por refuerzo?
  • Simplificando el aprendizaje automático

Deja una respuesta

Tu dirección de correo electrónico no será publicada.