Plus j'en apprends sur RL, plus je réalise que personne n'a jamais entraîné en politique. Vous ne pouvez jamais mettre à jour le même modèle deux fois.
@redtachyon @hallerite (Et même les approches sans mémoire utilisent de facto l'environnement comme mémoire et ne sont donc pas réellement sans mémoire)
14,84K