Più imparo su RL, più mi rendo conto che nessuno ha mai addestrato on-policy. Non puoi mai aggiornare lo stesso modello due volte.
@redtachyon @hallerite (E anche gli approcci senza memoria stanno di fatto utilizzando l'ambiente come memoria e quindi non sono realmente senza memoria)
14,82K