Quanto mais aprendo sobre RL, mais percebo que ninguém nunca treinou em política. Nunca se pode atualizar o mesmo modelo duas vezes.
@redtachyon @hallerite (E mesmo abordagens sem memória estão de facto a usar o ambiente como memória e, portanto, não são realmente sem memória)
14,84K