Hoe meer ik leer over RL, hoe meer ik besef dat niemand ooit on-policy heeft getraind. Je kunt nooit hetzelfde model twee keer bijwerken.
@redtachyon @hallerite (En zelfs geheugenloze benaderingen gebruiken de omgeving de facto als geheugen en zijn dus niet echt geheugenloos)
14,82K