一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

我越了解強化學習，就越意識到沒有人曾經進行過在政策上的訓練。你永遠無法對同一模型進行兩次更新。

@redtachyon @hallerite （即使是無記憶的方法實際上也在將環境作為記憶，因此並不是真正的無記憶）

14.83K

熱門

排行

收藏

鏈上熱點

X 熱門榜

近期融資

最受認可