Cuanto más aprendo sobre RL, más me doy cuenta de que nadie ha entrenado nunca en política. Nunca puedes actualizar el mismo modelo dos veces.
@redtachyon @hallerite (Y incluso los enfoques sin memoria están utilizando de facto el entorno como memoria y, por lo tanto, no son realmente sin memoria)
14,83K