Im więcej uczę się o RL, tym bardziej zdaję sobie sprawę, że nikt nigdy nie trenował na polityce. Nigdy nie możesz zaktualizować tego samego modelu dwa razy.
@redtachyon @hallerite (A nawet podejścia bez pamięci de facto wykorzystują środowisko jako pamięć, a więc nie są w rzeczywistości bez pamięci)
14,84K