RLについて知れば学ぶほど、誰も政策に関するトレーニングをしたことがないことに気づきます。同じモデルを 2 回更新することはできません。
@redtachyon @hallerite(そして、メモリレスのアプローチでさえ、事実上環境をメモリとして使用しているため、実際にはメモリレスではありません)
14.84K