Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Forskar om resonemang @OpenAI | Var med och skapade Libratus/Pluribus övermänskliga poker AIs, CICERO Diplomacy AI och OpenAI o3 / o1 / 🍓 resonemangsmodeller
Nedan följer en djupdykning i varför självspel fungerar för nollsummespel (2p0s) för två spelare som Go/Poker/Starcraft men är så mycket svårare att använda i "verkliga" domäner. Tl; DR: Self Play konvergerar till Minimax i 2P0S-spel, och MiniMax är verkligen användbart i dessa spel.
Varje ändligt 2p0s-spel har en minimax-jämvikt, vilket i princip är en oslagbar strategi i förväntan (förutsatt att spelarna byter sida). I stensax, till exempel, är minimax 1/3 på varje åtgärd.
Är minimax vad vi vill ha? Inte nödvändigtvis. Om du spelar minimax i Rock Paper Scissors när de flesta motståndares strategier är "kasta alltid sten" så är du helt klart suboptimal, även om du inte förlorar i förväntan. Detta är särskilt viktigt i ett spel som poker eftersom att spela minimax innebär att du kanske inte tjänar så mycket pengar på svaga spelare som du skulle kunna om du utnyttjade dem maximalt.
Men garantin "du kommer inte att förlora i förväntan" är riktigt skön att ha. Och i spel som Chess and Go är skillnaden mellan en minimax-strategi och en strategi som optimalt utnyttjar motståndarpopulationen försumbar. Av den anledningen anses minimax vanligtvis vara målet för ett nollsummespel för två spelare. Även i poker är den konventionella visdomen bland toppproffs att spela minimax (spelteori optimalt) och sedan bara avvika om du ser tydliga svagheter hos motståndaren.
Ljudmässigt självspelande, även från början, kommer garanterat att konvergera till en minimax-jämvikt i ändliga 2p0s-spel. Det är fantastiskt! Genom att helt enkelt skala minne och beräkning, och utan mänskliga data, kan vi konvergera till en strategi som är oslagbar i förväntan.
Hur är det med spel som inte är 2p0s? Tyvärr är det inte längre garanterat att rent självspel, utan mänskliga data, konvergerar till en användbar strategi. Detta kan tydligt ses i Ultimatum-spelet. Alice måste erbjuda Bob $0-100. Bob accepterar eller avvisar sedan. Om Bob går med på det delas pengarna upp enligt Alices förslag. Om Bob avvisar får båda $0.
Jämviktsstrategin (specifikt perfekt jämvikt i underspelet) är att erbjuda 1 penny och för Bob att acceptera. Men i den verkliga världen är människor inte så rationella. Om Alice skulle prova den strategin med riktiga människor skulle hon få väldigt lite pengar. Självleken frigörs från det som vi som människor tycker är användbart.
Många människor har föreslagit spel som "en LLM-lärare föreslår svåra matematiska problem, och en student LLM försöker lösa dem" för att uppnå självspelsträning, men detta stöter på liknande problem som Ultimatum-spelet där jämvikten är frikopplad från vad vi som människor tycker är användbart.
Vad ska belöningen för läraren vara i ett sådant spel? Om det är 2p0s belönas läraren om eleven inte kunde lösa problemet, så läraren kommer att ställa omöjliga problem. Okej, vad händer om vi belönar det för att eleven har 50 % framgång? Då kunde läraren bara singla slant och fråga eleven om det landade krona. Eller så kan läraren be eleven att dekryptera ett meddelande via en omfattande nyckelsökning. Att forma belöningar för att uppnå avsett beteende blir en stor utmaning. Detta är inte ett problem i 2p0s-spel.
Jag tror på att spela själv. Det ger en oändlig källa till utbildning, och det matchar kontinuerligt en agent med en lika skicklig kollega. Vi har också sett det fungera i några komplexa icke-2p0-inställningar som Diplomacy och Hanabi. Men att tillämpa det utanför 2p0s-spel är mycket svårare än det var för Go, Poker, Dota och Starcraft.


Noam Brown21 okt. 2025
Självspel fungerar så bra i schack, go och poker eftersom dessa spel är ett nollsummespel för två spelare. Det förenklar många problem. Den verkliga världen är rörigare, vilket är anledningen till att vi inte har sett många framgångar från självspel i LLM:er ännu.
Btw @karpathy gjorde det bra och jag håller mest med honom!
277,42K
Självspel fungerar så bra i schack, go och poker eftersom dessa spel är ett nollsummespel för två spelare. Det förenklar många problem. Den verkliga världen är rörigare, vilket är anledningen till att vi inte har sett många framgångar från självspel i LLM:er ännu.
Btw @karpathy gjorde det bra och jag håller mest med honom!

Dwarkesh Patel21 okt. 2025
.@karpathy säger att LLM:er för närvarande saknar den kulturella ackumulering och självlek som drev människor ut ur savannen:
Kultur: > "Varför kan inte en LLM skriva en bok för de andra LLM:erna? Varför kan inte andra LLM:er läsa denna LLM:s bok och inspireras av den, eller chockas av den?"
Självspel: > "Det är extremt kraftfullt. Evolutionen har en hel del konkurrens som driver intelligens och evolution. AlphaGo spelar mot sig själv och det är så den lär sig att bli riktigt bra på Go. Det finns ingen motsvarighet till självspel i LLM. Varför kan inte en LLM, till exempel, skapa en massa problem som en annan LLM lär sig att lösa? Sedan försöker LLM alltid tjäna fler och svårare problem."
Jag frågade Karpathy varför LLM:er fortfarande inte kan bygga upp kultur på det sätt som människor gör.
> "De dummare modellerna påminner anmärkningsvärt mycket om en förskoleelev. [De smartaste modellerna känns dock fortfarande som] grundskoleelever. På något sätt har vi fortfarande inte graderat tillräckligt där [dessa modeller] kan ta över. Min Claude Code eller Codex, de känns fortfarande som den här grundskoleeleven. Jag vet att de kan göra doktorandquiz, men de känner sig ändå kognitivt som ett dagis.
> "Jag tror inte att de kan skapa kultur eftersom de fortfarande är barn. De är savant kids. De har perfekt minne. De kan på ett övertygande sätt skapa alla typer av slask som ser riktigt bra ut. Men jag tror fortfarande att de inte riktigt vet vad de gör. De har inte riktigt den kognition som finns i alla dessa små kryssrutor som vi fortfarande måste samla in."
320,91K
.@Stanford kurser är av hög kvalitet men policyerna är definitivt föråldrade. Jag hör talas om skenande uppenbart fusk som sker där studenter kopplar in frågorna direkt i ChatGPT under midterms, men professorer får inte övervaka proven på grund av hederskodexen.
Professorerna vill ändra policyn, men universitetsbyråkratin måste gå igenom en flerårig process innan den kan förändras.

Zara Zhang14 okt. 2025
Studenter vid Harvard och Stanford berättar för mig att deras professorer inte förstår AI och att kurserna är föråldrade.
Om elitskolorna inte kan hänga med är kapprustningen om legitimation över. Självlärande är det enda sättet nu.
214,17K
Topp
Rankning
Favoriter
