熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
直觀上很容易理解為什麼自我對弈 *可以* 在大型語言模型(LLMs)中運作,如果我們能夠在中間步驟提供一個價值函數(儘管這並不像在雙人零和遊戲中那樣明確保證)。
在棋類遊戲 / 圍棋 / 撲克中,我們對每一步都有獎勵,但正如諾姆所指出的,自然語言是混亂的。很難在像標記這樣的中間步驟上定義一個價值函數。因此,在通常的強化學習(如RLVR)中,LLMs在最後才獲得獎勵。它們最終學會在困難問題上「徘徊」得更多。在某種程度上,我們用更多的標記來獎勵強行解題,以達到正確答案,這被視為正確的方法。
然而,在@DeepCogito,我們為思考過程本身提供了一種信號。從概念上講,你可以想像這就像事後為更好的搜索軌跡分配獎勵。這教會模型在推理時發展出更強的「如何搜索」的直覺。
在實踐中,模型在推理模式下對於更困難的問題最終會有顯著更短的推理鏈。稍微令人驚訝的是,它在非思考模式下也變得更好。可以這樣理解,由於模型知道如何更好地搜索,它在非思考模式下「選擇」最可能的軌跡的能力更強。
熱門
排行
收藏

