Je mehr ich über RL lerne, desto mehr wird mir klar, dass niemand jemals on-policy trainiert hat. Man kann dasselbe Modell niemals zweimal aktualisieren.
@redtachyon @hallerite (Und selbst speicherlose Ansätze verwenden de facto die Umgebung als Speicher und sind somit nicht wirklich speicherlos)
14,82K