Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Forsker på resonnement @OpenAI | Co-skapte Libratus/Pluribus overmenneskelige poker-AI-er, CICERO Diplomacy AI og OpenAI o3 / o1 / 🍓 resonneringsmodeller
Nedenfor er et dypdykk i hvorfor selvspill fungerer for to-spillers nullsumspill (2p0s) som Go/Poker/Starcraft, men er så mye vanskeligere å bruke i "virkelige verden"-domener. Tl; DR: Selvspill konvergerer til Minimax i 2P0S-spill, og Minimax er veldig nyttig i disse spillene.
Hvert begrenset 2p0s-spill har en minimax-likevekt, som i hovedsak er en uslåelig strategi i forventning (forutsatt at spillerne bytter side). I steinpapirsaks, for eksempel, er minimax 1/3 på hver handling.
Er minimax det vi ønsker? Ikke nødvendigvis. Hvis du spiller minimax i Rock Paper Scissors når de fleste motstandernes strategier er "alltid kaste stein", er du helt klart suboptimal, selv om du ikke taper i forventning. Dette er spesielt viktig i et spill som poker fordi å spille minimax betyr at du kanskje ikke tjener så mye penger på svake spillere som du kunne hvis du utnyttet dem maksimalt.
Men garantien om "du vil ikke tape i forventning" er veldig fin å ha. Og i spill som Chess and Go er forskjellen mellom en minimax-strategi og en strategi som optimalt utnytter motstanderpopulasjonen ubetydelig. Av den grunn regnes minimax vanligvis som målet for et nullsumspill for to spillere. Selv i poker er den konvensjonelle visdommen blant toppproffer å spille minimax (spillteori optimal) og deretter bare avvike hvis du oppdager klare svakheter hos motstanderen.
Godt selvspill, selv fra bunnen av, vil garantert konvergere til en minimax-likevekt i endelige 2p0s-spill. Det er utrolig! Ved ganske enkelt å skalere minne og databehandling, og uten menneskelige data, kan vi konvergere til en strategi som er uslåelig i forventning.
Hva med ikke-2p0s-spill? Dessverre er det ikke lenger garantert at ren selvlek, uten menneskelige data, konvergerer til en nyttig strategi. Dette kan tydelig sees i Ultimatum-spillet. Alice må tilby Bob $0-100. Bob aksepterer eller avviser deretter. Hvis Bob aksepterer, deles pengene i henhold til Alices forslag. Hvis Bob avviser, mottar begge $0.
Likevektsstrategien (nærmere bestemt underspillet perfekt likevekt) er å tilby 1 penny og for Bob å akseptere. Men i den virkelige verden er ikke folk så rasjonelle. Hvis Alice skulle prøve den strategien med ekte mennesker, ville hun ende opp med veldig lite penger. Selvlek blir løsrevet fra det vi som mennesker finner nyttig.
Mange mennesker har foreslått spill som "en LLM-lærer foreslår vanskelige matematiske problemer, og en student LLM prøver å løse dem" for å oppnå selvspilltrening, men dette støter på lignende problemer som Ultimatum-spillet der likevekten er løsrevet fra det vi som mennesker finner nyttig.
Hva bør belønningen for læreren være i et slikt spill? Hvis det er 2p0s, blir læreren belønnet hvis eleven ikke kunne løse problemet, så læreren vil stille umulige problemer. Ok, hva om vi belønner det for at studenten har en suksessrate på 50 %? Så kunne læreren bare kaste en mynt og spørre eleven om den landet Heads. Eller læreren kan be eleven om å dekryptere en melding via et uttømmende nøkkelsøk. Belønningsforming for å oppnå tiltenkt atferd blir en stor utfordring. Dette er ikke et problem i 2p0s-spill.
Jeg tror på selvlek. Det gir en uendelig kilde til opplæring, og det matcher kontinuerlig en agent med en like dyktig kollega. Vi har også sett det fungere i noen komplekse ikke-2p0-settinger som diplomati og hanabi. Men å bruke det utenfor 2p0s-spill er mye vanskeligere enn det var for Go, Poker, Dota og Starcraft.


Noam Brown21. okt., 23:13
Selvspill fungerer så bra i sjakk, go og poker fordi disse spillene er to-spiller nullsum. Det forenkler mange problemer. Den virkelige verden er mer rotete, og det er grunnen til at vi ikke har sett mange suksesser fra selvspill i LLM-er ennå.
Btw @karpathy gjorde det bra, og jeg er stort sett enig med ham!
259,6K
Selvspill fungerer så bra i sjakk, go og poker fordi disse spillene er to-spiller nullsum. Det forenkler mange problemer. Den virkelige verden er mer rotete, og det er grunnen til at vi ikke har sett mange suksesser fra selvspill i LLM-er ennå.
Btw @karpathy gjorde det bra, og jeg er stort sett enig med ham!

Dwarkesh Patel21. okt., 02:03
.@karpathy sier at LLM-er for tiden mangler den kulturelle akkumuleringen og selvleken som drev mennesker ut av savannen:
Kultur: > «Hvorfor kan ikke en LLM skrive en bok for de andre LLM-ene? Hvorfor kan ikke andre LLM-er lese denne LLMs bok og bli inspirert av den, eller sjokkert over den?»
Selvspill: > «Det er ekstremt kraftfullt. Evolusjon har mye konkurranse som driver intelligens og evolusjon. AlphaGo spiller mot seg selv, og det er slik den lærer å bli virkelig god på Go. Det er ingen ekvivalent til selvspill i LLM-er. Hvorfor kan for eksempel ikke en LLM skape en haug med problemer som en annen LLM lærer å løse? Da prøver LLM alltid å betjene flere og vanskeligere problemer.»
Jeg spurte Karpathy hvorfor LLM-er fortsatt ikke er i stand til å bygge opp kultur slik mennesker gjør.
> "De dummere modellene ligner bemerkelsesverdig på en barnehageelev. [De smarteste modellene føles fortsatt som] barneskoleelever. På en eller annen måte har vi fortsatt ikke uteksaminert nok til at [disse modellene] kan ta over. Min Claude Code eller Codex, de føler seg fortsatt som denne grunnskoleeleven. Jeg vet at de kan ta doktorgradsquizer, men de føler seg fortsatt kognitivt som en barnehage.
> «Jeg tror ikke de kan skape kultur fordi de fortsatt er barn. De er kunnskapsrike barn. De har perfekt hukommelse. De kan overbevisende lage alle slags slop som ser veldig bra ut. Men jeg tror fortsatt de ikke helt vet hva de gjør. De har egentlig ikke kognisjonen på tvers av alle disse små avmerkingsboksene som vi fortsatt må samle inn.»
315,92K
.@Stanford kursene er av høy kvalitet, men retningslinjene er definitivt utdaterte. Jeg hører om utbredt åpenbar juks som skjer der studenter kobler spørsmålene direkte til ChatGPT i mellomtidene, men professorer har ikke lov til å overvåke eksamenene på grunn av æreskoden.
Professorene ønsker å endre politikken, men universitetsbyråkratiet må gjennom en flerårig prosess før det kan endres.

Zara Zhang14. okt., 23:06
Harvard- og Stanford-studenter forteller meg at professorene deres ikke forstår AI og at kursene er utdaterte.
Hvis eliteskoler ikke kan holde tritt, er legitimasjonsvåpenkappløpet over. Selvlæring er den eneste måten nå.
212,87K
Topp
Rangering
Favoritter