Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Ricerca ragionamento @OpenAI | Ha co-creato le IA di poker superumane Libratus/Pluribus, CICERO Diplomacy AI e OpenAI o3 / o1 / 🍓 modelli di ragionamento
Di seguito è un'analisi approfondita su perché il self play funziona per i giochi a somma zero a due giocatori (2p0s) come Go/Poker/Starcraft, ma è molto più difficile da utilizzare nei domini "reali". tl;dr: il self play converge al minimax nei giochi 2p0s e il minimax è davvero utile in quei giochi.
Ogni gioco 2p0s finito ha un equilibrio minimax, che è essenzialmente una strategia imbattibile in aspettativa (supponendo che i giocatori alternino i lati). In carta forbice sasso, ad esempio, il minimax è 1/3 su ciascuna azione.
È il minimax ciò che vogliamo? Non necessariamente. Se stai giocando minimax a Carta Forbice Sasso quando la maggior parte delle strategie degli avversari è "lancia sempre Sasso", allora sei chiaramente subottimale, anche se non stai perdendo in aspettativa. Questo è particolarmente importante in un gioco come il poker, perché giocare minimax significa che potresti non guadagnare tanto denaro dai giocatori deboli quanto potresti se li sfruttassi al massimo.
Ma la garanzia di "non perderai in aspettativa" è davvero piacevole da avere. E in giochi come Scacchi e Go, la differenza tra una strategia minimax e una strategia che sfrutta ottimamente la popolazione di avversari è trascurabile. Per questo motivo, il minimax è generalmente considerato l'obiettivo per un gioco a somma zero a due giocatori. Anche nel poker, la saggezza convenzionale tra i migliori professionisti è di giocare minimax (teoria dei giochi ottimale) e poi deviare solo se noti chiare debolezze nell'avversario.
Il self play solido, anche da zero, è garantito per convergere a un equilibrio minimax nei giochi 2p0s finiti. È incredibile! Semplicemente scalando memoria e calcolo, e senza dati umani, possiamo convergere a una strategia che è imbattibile in aspettativa.
E per i giochi non 2p0s? Purtroppo, il puro self play, senza dati umani, non è più garantito per convergere a una strategia utile. Questo può essere chiaramente visto nel Gioco dell'Ultimatum. Alice deve offrire a Bob $0-100. Bob poi accetta o rifiuta. Se Bob accetta, il denaro viene diviso secondo la proposta di Alice. Se Bob rifiuta, entrambi ricevono $0.
La strategia di equilibrio (specificamente, equilibrio perfetto nei sottogiochi) è offrire 1 centesimo e per Bob accettare. Ma nel mondo reale, le persone non sono così razionali. Se Alice provasse quella strategia con esseri umani reali, finirebbe con molto poco denaro. Il self play diventa scollegato da ciò che noi come esseri umani troviamo utile.
Molti hanno proposto giochi come "un insegnante LLM propone problemi matematici difficili, e uno studente LLM cerca di risolverli" per raggiungere un addestramento di self-play, ma questo incontra problemi simili a quelli del gioco dell'ultimatum dove l'equilibrio è scollegato da ciò che noi come esseri umani troviamo utile.
Quale dovrebbe essere la ricompensa per l'insegnante in un tale gioco? Se è 2p0s, allora l'insegnante è ricompensato se lo studente non riesce a risolvere il problema, quindi l'insegnante porrà problemi impossibili. Va bene, e se lo ricompensiamo per avere una percentuale di successo del 50%? Allora l'insegnante potrebbe semplicemente lanciare una moneta e chiedere allo studente se è uscito Testa. Oppure l'insegnante potrebbe chiedere allo studente di decrittare un messaggio tramite una ricerca esaustiva della chiave. La modellazione della ricompensa per ottenere il comportamento desiderato diventa una grande sfida. Questo non è un problema nei giochi 2p0s.
Credo nel self play. Fornisce una fonte infinita di addestramento e abbina continuamente un agente con un pari di pari abilità. Abbiamo anche visto funzionare in alcuni contesti complessi non 2p0s come Diplomacy e Hanabi. Ma applicarlo al di fuori dei giochi 2p0s è molto più difficile di quanto non fosse per Go, Poker, Dota e Starcraft.


Noam Brown21 ott, 23:13
Il self play funziona così bene negli scacchi, nel go e nel poker perché questi giochi sono a somma zero per due giocatori. Questo semplifica molti problemi. Il mondo reale è più complicato, ed è per questo che non abbiamo ancora visto molti successi dal self play nei LLM.
A proposito, @karpathy ha fatto un ottimo lavoro e sono per lo più d'accordo con lui!
259,6K
Il self play funziona così bene negli scacchi, nel go e nel poker perché questi giochi sono a somma zero per due giocatori. Questo semplifica molti problemi. Il mondo reale è più complicato, ed è per questo che non abbiamo ancora visto molti successi dal self play nei LLM.
A proposito, @karpathy ha fatto un ottimo lavoro e sono per lo più d'accordo con lui!

Dwarkesh Patel21 ott, 02:03
.@karpathy afferma che gli LLM attualmente mancano dell'accumulo culturale e del self-play che hanno spinto gli esseri umani fuori dalla savana:
Cultura: > “Perché un LLM non può scrivere un libro per gli altri LLM? Perché gli altri LLM non possono leggere il libro di questo LLM e trarne ispirazione, o rimanere scioccati?”
Self play: > “È estremamente potente. L'evoluzione ha molta competizione che guida l'intelligenza e l'evoluzione. AlphaGo gioca contro se stesso ed è così che impara a diventare davvero bravo a Go. Non c'è un equivalente del self-play negli LLM. Perché un LLM, ad esempio, non può creare un sacco di problemi che un altro LLM sta imparando a risolvere? Così l'LLM sta sempre cercando di affrontare problemi sempre più difficili.”
Ho chiesto a Karpathy perché gli LLM non siano ancora in grado di costruire cultura come fanno gli esseri umani.
> “I modelli più stupidi somigliano notevolmente a uno studente dell'asilo. [I modelli più intelligenti sembrano ancora] studenti delle scuole elementari, però. In qualche modo, non ci siamo ancora diplomati abbastanza perché [questi modelli] possano prendere il controllo. Il mio Claude Code o Codex, sembrano ancora questo studente di grado elementare. So che possono affrontare quiz da dottorato, ma cognitivamente si sentono ancora come un asilo.”
> “Non penso che possano creare cultura perché sono ancora bambini. Sono bambini prodigio. Hanno una memoria perfetta. Possono creare in modo convincente tutti i tipi di porcheria che sembrano davvero buone. Ma penso ancora che non sappiano davvero cosa stanno facendo. Non hanno davvero la cognizione su tutte queste piccole caselle che dobbiamo ancora raccogliere.”
315,92K
.@Stanford i corsi sono di alta qualità, ma le politiche sono decisamente obsolete. Ho sentito parlare di un diffuso e palese imbroglio in cui gli studenti inseriscono direttamente le domande in ChatGPT durante i compiti in classe, ma i professori non possono sorvegliare gli esami a causa del codice d'onore.
I professori vogliono cambiare la politica, ma la burocrazia universitaria deve seguire un processo di diversi anni prima che possa cambiare.

Zara Zhang14 ott, 23:06
Gli studenti di Harvard e Stanford mi dicono che i loro professori non capiscono l'AI e i corsi sono obsoleti.
Se le scuole d'élite non riescono a tenere il passo, la corsa al riconoscimento è finita. L'autoapprendimento è l'unico modo ora.
212,87K
Principali
Ranking
Preferiti