Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Cercetarea raționamentului @OpenAI | Au creat în comun AI-urile de poker supraumane Libratus/Pluribus, CICERO Diplomacy AI și modelele de raționament OpenAI o3 / o1 / 🍓 raționament
Mai jos este o scufundare profundă în motivul pentru care jocul propriu funcționează pentru jocurile cu sumă zero (2p0) cu doi jucători, cum ar fi Go/Poker/Starcraft, dar este mult mai greu de utilizat în domeniile "lumii reale". Tl; DR: Self-play converge la minimax în jocurile 2p0s, iar minimax este foarte util în acele jocuri.
Fiecare joc finit de 2p0 are un echilibru minimax, care este în esență o strategie imbatabilă în așteptare (presupunând că jucătorii alternează tabăra). În foarfecele de hârtie de piatră, de exemplu, minimaxul este de 1/3 pe fiecare acțiune.
Este minimax ceea ce ne dorim? Nu neapărat. Dacă joci minimax în Rock Paper Scissors când majoritatea strategiilor adversarilor sunt "aruncă întotdeauna piatra", atunci ești clar suboptim, chiar dacă nu pierzi în așteptări. Acest lucru contează mai ales într-un joc precum pokerul, deoarece jocul minimax înseamnă că s-ar putea să nu câștigi atât de mulți bani de pe urma jucătorilor slabi ca dacă i-ai exploata la maximum.
Dar garanția de "nu vei pierde în așteptări" este foarte plăcută de avut. Iar în jocuri precum Chess and Go, diferența dintre o strategie minimax și o strategie care exploatează în mod optim populația de adversari este neglijabilă. Din acest motiv, minimax este de obicei considerat obiectivul pentru un joc cu sumă zero cu doi jucători. Chiar și în poker, înțelepciunea convențională printre profesioniștii de top este să joci minimax (teoria jocului optimă) și apoi să deviezi doar dacă observi slăbiciuni clare la adversar.
Sunetul auto-jocului, chiar și de la zero, este garantat să convergă către un echilibru minimax în jocurile finite 2p0s. Este uimitor! Prin simpla scalare a memoriei și a calculului și fără date umane, putem converge către o strategie care este imbatabilă în așteptări.
Dar jocurile non-2p0s? Din păcate, jocul de sine pur, fără date umane, nu mai este garantat să convergă către o strategie utilă. Acest lucru poate fi văzut clar în jocul Ultimatum. Alice trebuie să-i ofere lui Bob 0-100 $. Bob acceptă sau respinge apoi. Dacă Bob acceptă, banii sunt împărțiți conform propunerii lui Alice. Dacă Bob respinge, ambii primesc $0.
Strategia de echilibru (în special, echilibrul perfect al subjocului) este de a oferi 1 ban și pentru Bob să accepte. Dar în lumea reală, oamenii nu sunt atât de raționali. Dacă Alice ar încerca această strategie cu oameni adevărați, ar sfârși cu foarte puțini bani. Jocul de sine devine desprins de ceea ce noi, ca oameni, găsim util.
O mulțime de oameni au propus jocuri precum "un profesor de LLM propune probleme dificile de matematică, iar un elev LLM încearcă să le rezolve" pentru a obține antrenament de auto-joc, dar acest lucru se lovește de probleme similare cu jocul Ultimatum, unde echilibrul este liber de ceea ce noi, ca oameni, găsim util.
Care ar trebui să fie recompensa pentru profesor într-un astfel de joc? Dacă este 2p0s, atunci profesorul este recompensat dacă elevul nu a putut rezolva problema, așa că profesorul va pune probleme imposibile. Bine, ce se întâmplă dacă îl recompensam pentru că elevul are o rată de succes de 50%? Apoi profesorul putea arunca o monedă și să-l întrebe pe elev dacă aterizează Capete. Sau profesorul ar putea cere elevului să decripteze un mesaj printr-o căutare exhaustivă a cheilor. Modelarea recompensei pentru a atinge comportamentul intenționat devine o provocare majoră. Aceasta nu este o problemă în jocurile 2p0s.
Cred în jocul de sine. Oferă o sursă infinită de instruire și potrivește continuu un agent cu un coleg la fel de calificat. Am văzut că funcționează și în unele setări complexe non-2p0, cum ar fi Diplomacy și Hanabi. Dar aplicarea în afara jocurilor 2p0s este mult mai dificilă decât a fost pentru Go, Poker, Dota și Starcraft.


Noam Brown21 oct., 23:13
Jocul propriu funcționează atât de bine în șah, go și poker, deoarece aceste jocuri sunt cu sumă zero pentru doi jucători. Asta simplifică o mulțime de probleme. Lumea reală este mai dezordonată, motiv pentru care nu am văzut încă multe succese din jocul propriu în LLM-uri.
Apropo, @karpathy făcut grozav și sunt în mare parte de acord cu el!
277,38K
Jocul propriu funcționează atât de bine în șah, go și poker, deoarece aceste jocuri sunt cu sumă zero pentru doi jucători. Asta simplifică o mulțime de probleme. Lumea reală este mai dezordonată, motiv pentru care nu am văzut încă multe succese din jocul propriu în LLM-uri.
Apropo, @karpathy făcut grozav și sunt în mare parte de acord cu el!

Dwarkesh Patel21 oct., 02:03
.@karpathy spune că LLM-urilor le lipsește în prezent acumularea culturală și jocul de sine care i-a propulsat pe oameni din savană:
Cultură: > "De ce nu poate un LLM să scrie o carte pentru ceilalți LLM? De ce nu pot alți LLM să citească cartea acestui LLM și să fie inspirați de ea sau șocați de ea?"
Self-play: > "Este extrem de puternic. Evoluția are multă concurență care conduce inteligența și evoluția. AlphaGo joacă împotriva sa și așa învață să devină foarte bun la Go. Nu există echivalent al jocului propriu în LLM-uri. De ce nu poate un LLM, de exemplu, să creeze o grămadă de probleme pe care un alt LLM învață să le rezolve? Apoi, LLM încearcă mereu să deservească probleme din ce în ce mai dificile."
Am întrebat-o pe Karpathy de ce LLM-urile încă nu sunt capabile să construiască o cultură așa cum o fac oamenii.
> "Modelele mai proaste seamănă remarcabil cu un elev de grădiniță. [Cele mai inteligente modele încă se simt ca] elevi de școală primară. Cumva, încă nu am absolvit suficient de mult în care [aceste modele] pot prelua controlul. Codul meu Claude sau Codex, încă se simt ca un elev de clasa elementară. Știu că pot susține chestionare de doctorat, dar din punct de vedere cognitiv se simt ca o grădiniță."
> "Nu cred că pot crea cultură pentru că sunt încă copii. Sunt copii pricepuți. Au o memorie perfectă. Ei pot crea în mod convingător tot felul de slop care arată foarte bine. Dar încă cred că nu știu cu adevărat ce fac. Nu au cu adevărat cogniția în toate aceste mici casete de selectare pe care încă trebuie să le colectăm."
320,85K
.@Stanford cursuri sunt de înaltă calitate, dar politicile sunt cu siguranță depășite. Aud despre înșelăciune flagrantă care se întâmplă în cazul în care studenții conectează întrebările direct la ChatGPT în timpul semestrului intermediar, dar profesorii nu au voie să supravegheze examenele din cauza codului de onoare.
Profesorii vor să schimbe politica, dar birocrația universitară trebuie să treacă printr-un proces de mai mulți ani înainte de a se putea schimba.

Zara Zhang14 oct., 23:06
Studenții de la Harvard și Stanford îmi spun că profesorii lor nu înțeleg AI și că cursurile sunt depășite.
Dacă școlile de elită nu pot ține pasul, cursa înarmării pentru acreditări s-a încheiat. Auto-învățarea este singura cale acum.
214,13K
Limită superioară
Clasament
Favorite
