Recordemos que en RL tenemos un agente que toma las desiciones, un entorno con el que este interactua y en cada tiempo t el entorno está en un estado y el agente elige una acción , el entorno responde con una recompensa y un nuevo estado

Una politica es la forma en que el agente decide qué acción tomar en cada estado:

, es decir, si estoy en s con que probabilidad elijo la acción a.

El objetivo es maximizar la recompensa total futura (el retorno)

0.1. Policy Gradient

Anteriormente lo que haciamos era aproximar la función de valor (o la de acción valor) con un modelo paramétrico ,

En los métodos value-based aprnedes una funcion de valor , la política nose aprende directamente si no que se deriva de estos valores, es implicita, sale como producto de

primero definimos la regla que dice que acción tomar enc ada estado, , definimosla funicón de desempeño , todo el problema de RL se puede resumir en encontrar una política que haga grande .

Parametrizamos la política que sea algo que podamos representar con números.

, , desempeño esperado de la plítica parametrizada por .

Políticas deterministas o estocástica? Si hacemos el ejercicio del piedra papel o tijera y obtuvieramos una politica determinista es decir simepre tijera o simepre papel, con recompensa de +1 si ganas, −1 si pierdes, 0 si empatas, sería muy explotable y tu rival detectaría el patrón haciendo que tu recompensa siempre fuese de −1, al ser estocástica puedes hacer , el objetivo de policy gradient ajusta hasta que las probabilidades se acerquen a la mezcla óptima en cada una.