El aprendizaje por refuerzo aparece en la interseccioón de muchos campos. En ciencias computacionales se estudia como parte del machine learning; en neurociencia se relaciona con los sistemas de recompensa; en psicología con el condicionamiento clásico y operante; en economía con la racionalidad limitada y la toma de decisiones secuenciales; en matemáticas con la investigación de operaciones; y en ingeniería con el control óptimo.
Nota el M-L se podria ver como una interseccion entre aprendizaje supervisado, el no supervisado y el aprendizaje por refuerzo.
Una recompensa (reward) es una señal numérica (escalar) que llega en el paso t. Sirve para indicar que tan bien va el agente en ese instant. Su meta es maximizar la reocmpensa acumulado (a lo largo del tiempo).
Hipótesis de la recomepnsa “todo objetivo que un agente puede perseguir puede especificarse como la maximizacion del valor esperado de una señal escalar de recompensa a lo largo del tiempo”.
Asimismo nos encontramos con desiciones secuenciales, el cual su objetivo es elegir acciones que maximicen la recompensa futura total. Algo muy importante es que as acciones tienen efectos a largo plazo, la recompensa puede retrasarse; aveces conviene sacrificar lo inmediato para ganar más después.
Agente y entorno En cada paso el agente ejecuta (accion tomada en t) y el entorno devuelve una observacion y una recompensa . Note que el tiempo t avanza con cada paso del entorno.
Historia y estado
Definimos la historia como : todo lo observado y hecho hasta t.
. La historia es algo muy fuerte, peor muy costoso, pues incluye todo lo hecho hasta el tiempo t.
El estado es la información relevante para decidir qué pasa después. Formalmente .
Estado del entorno : representación privada del entorno: datos que usa para generar la proxima observación y recompensa. Normalmente no es visible para el agente y si lo feura puede tener informacion no relevante.
Estado del agente : es la representación interna del agente, es la información que el agente construye para elegir la siguiente acción. Puede ser cualquier funcion de la historia: .
Estado de información (estado de markov) contiene toda la info útil del pasado; el futuro no depende del pasado si conoces el presente. es Marcov si . En consecuencia el estado del entorno es de Marcov por construcción y tambien es Marcov pero es grande, por eso buscamos un buen apartir de observaciones parciales (POMDP).
Entorno totalmente observable (MDP)
El agente ve directamente el verdadero estado del entorno, formalmente (observación = estado del entorno = estado de información). Se puede pensar como jugar ajedrez, vemos todo el tablero.
Entorno parcialmente observable (POMDP) El agente no ve todo; sólo recibe observaciones que no revelan el estado real .
Consecuencias: El agente construye un estado interno
Una política puede ser determinista, es decir que siempre elige la misma acción para un estado (s) en específico, formalmente: .
De manera similar existe la política estocástica, esta define una distribución de probabilidad sobre acciones para un estado dado. Esto significa que, para un mismo estado (s), el agente puede tomar diferentes acciones (a) en distintos momentos.
La función de valor es una predicción de la recompensa futura, que un agente puede recibir al estar en un estado particular. Su funcion es evaluar la calidad de los estados, lo que a su vez ayuda al agente a seleccionar mejor las acciones. Formalmente:
Un Modelo predice que hará el entorno a continuación. Es una reresentación del entorno que el agente utiliza para predecir. Se compone de dos elementos claves: