Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi bygde ved et uhell selvforbedrende AI-systemer. Denne artikkelen fra University of Oxford beviser det.
De fleste antar at modellforbedringer kommer fra større arkitekturer eller nøye designede forsterkningslæringspipelines.
Dette verket viser noe mer subtilt og mer urovekkende.
Hvis du distribuerer en modell, lar brukerne samhandle med den, filtrerer ut feilene og finjusterer kun på de vellykkede sporene, begynner modellen å forbedre sine planleggingsevner på egenhånd.
Ingen eksplisitte belønninger, håndlaget læreplan og ingen ekstern planlegger.
Bare iterasjon.
Forfatterne kaller dette iterativ utrulling, og de tester det i kontrollerte planleggingsmiljøer som Blocksworld, Rovers og Sokoban.
Oppsettet er enkelt:
1. Utplassere en LLM på planleggingsoppgaver
2. Behold kun de planene som faktisk fungerer
3. Finjuster neste versjon på disse gyldige sporene
Gjenta
Etter bare fem generasjoner mer enn dobles planleggingsytelsen på tvers av alle domener. I noen tilfeller forbedres det med 4 til 5 ganger. Enda mer interessant er det at senere generasjoner oppdager mye lengre planer enn basismodellen, som viser reell generalisering utenfor distribusjon, ikke bare formateringstriks eller rask etterlevelse.
Her er hovedinnsikten.
Artikkelen beviser at denne prosessen er matematisk ekvivalent med forsterkningslæring med et binært belønningssignal.
Men belønningsfunksjonen skrives aldri ned.
...

Topp
Rangering
Favoritter
