Quanto mais aprendo sobre RL, mais percebo que ninguém jamais treinou em política. Você nunca pode atualizar o mesmo modelo duas vezes.
@redtachyon @hallerite (E mesmo as abordagens sem memória estão de fato usando o ambiente como memória e, portanto, não são realmente sem memória)
14,82K