我对强化学习了解得越多,就越意识到没有人真正进行过在线训练。你永远无法对同一个模型进行两次更新。
@redtachyon @hallerite(即使是无记忆的方法实际上也在将环境作为记忆,因此并不是真正的无记忆)
14.82K