Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi råkade bygga självförbättrande AI-system. Denna artikel från University of Oxford bevisar det.
De flesta antar att modellförbättringar kommer från större arkitekturer eller noggrant utformade förstärkningsinlärningspipelines.
Detta verk visar något mer subtilt och mer oroande.
Om du distribuerar en modell, låter användare interagera med den, filtrerar bort misslyckanden och finjusterar endast på de framgångsrika spåren, börjar modellen förbättra sina planeringsförmågor på egen hand.
Inga explicita belöningar, handgjord läroplan och ingen extern planerare.
Bara iteration.
Författarna kallar detta iterativ utplacering, och de testar det i kontrollerade planeringsmiljöer som Blocksworld, Rovers och Sokoban.
Upplägget är enkelt:
1. Implementera en LLM för planeringsuppgifter
2. Behåll bara de planer som faktiskt fungerar
3. Finjustera nästa version på dessa giltiga spår
Upprepa
Efter bara fem generationer mer än fördubblas planeringsprestandan över alla domäner. I vissa fall förbättras det med 4 till 5 gånger. Ännu mer intressant är att senare generationer upptäcker mycket längre planer än basmodellen, vilket visar verklig generalisering utanför distributionen, inte bara formateringstrick eller snabb efterlevnad.
Här är den viktigaste insikten.
Artikeln bevisar att denna process är matematiskt ekvivalent med förstärkningsinlärning med en binär belöningssignal.
Men belöningsfunktionen skrivs aldrig ner.
...

Topp
Rankning
Favoriter
