我越了解強化學習,就越意識到沒有人曾經進行過在政策上的訓練。你永遠無法對同一模型進行兩次更新。
@redtachyon @hallerite (即使是無記憶的方法實際上也在將環境作為記憶,因此並不是真正的無記憶)
14.83K