Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Costruire @EurekaLabsAI. In precedenza Direttore di AI @ Tesla, team fondatore @ OpenAI, CS231n/PhD @ Stanford. Mi piace addestrare grandi reti neurali profonde.
È stato un piacere partecipare a Dwarkesh la scorsa settimana, pensavo che le domande e la conversazione fossero davvero buone.
Ho appena riguardato il podcast. Prima di tutto, sì lo so, e mi dispiace di parlare così veloce :). È a mio svantaggio perché a volte il mio filo di discorso supera il mio filo di pensiero, quindi penso di aver rovinato alcune spiegazioni a causa di ciò, e a volte ero anche nervoso di andare troppo fuori tema o troppo in profondità su qualcosa di relativamente spinoso. Comunque, alcune note/indicazioni:
Tempistiche dell'AGI. I miei commenti sulle tempistiche dell'AGI sembrano essere la parte più discussa della risposta iniziale. Questo è il "decennio degli agenti", un riferimento a questo tweet precedente. Fondamentalmente, le mie tempistiche sull'AI sono circa 5-10 volte più pessimistiche rispetto a ciò che troverai alla tua festa di quartiere sull'AI a SF o sulla tua timeline di Twitter, ma comunque piuttosto ottimistiche rispetto a un aumento di negazionisti e scettici dell'AI. Il conflitto apparente non è: imo abbiamo contemporaneamente 1) visto un enorme progresso negli ultimi anni con i LLM mentre 2) c'è ancora molto lavoro da fare (lavoro di base, lavoro di integrazione, sensori e attuatori nel mondo fisico, lavoro sociale, lavoro di sicurezza e protezione (jailbreak, avvelenamento, ecc.)) e anche ricerca da completare prima di avere un'entità che preferiresti assumere rispetto a una persona per un lavoro arbitrario nel mondo. Penso che, in generale, 10 anni dovrebbero essere altrimenti una tempistica molto ottimista per l'AGI, è solo in contrasto con l'attuale hype che non sembra così.
Animali vs Fantasmi. Il mio precedente scritto sul podcast di Sutton. Sono sospettoso che ci sia un singolo algoritmo semplice che puoi lasciare libero nel mondo e che impari tutto da zero. Se qualcuno costruisce una cosa del genere, mi sbaglierò e sarà la scoperta più incredibile nell'AI. Nella mia mente, gli animali non sono affatto un esempio di questo - sono preconfezionati con un sacco di intelligenza dall'evoluzione e l'apprendimento che fanno è piuttosto minimo nel complesso (esempio: Zebra alla nascita). Mettendo i nostri cappelli da ingegneri, non rifaremo l'evoluzione. Ma con i LLM abbiamo inciampato in un approccio alternativo per "preconfezionare" un sacco di intelligenza in una rete neurale - non tramite evoluzione, ma prevedendo il prossimo token su Internet. Questo approccio porta a un tipo diverso di entità nello spazio dell'intelligenza. Distinto dagli animali, più simile a fantasmi o spiriti. Ma possiamo (e dovremmo) farli diventare più simili agli animali nel tempo e in alcuni modi questo è ciò di cui si occupa gran parte del lavoro di frontiera.
Sull'RL. Ho criticato l'RL un paio di volte già. Prima di tutto, stai "succhiando supervisione attraverso una cannuccia", quindi penso che il segnale/flop sia molto scarso. L'RL è anche molto rumoroso perché un completamento potrebbe avere molti errori che potrebbero essere incoraggiati (se ti capita di inciampare nella risposta giusta), e viceversa, token di intuizione brillanti che potrebbero essere scoraggiati (se ti capita di sbagliare dopo). Anche la supervisione del processo e i giudici LLM hanno problemi. Penso che vedremo paradigmi di apprendimento alternativi. Sono favorevole all'"interazione agentica" ma scettico sull'"apprendimento per rinforzo". Ho visto un certo numero di articoli apparire recentemente che, imo, stanno seguendo la strada giusta lungo le linee di ciò che ho chiamato "apprendimento tramite prompt di sistema", ma penso che ci sia anche un divario tra le idee su arxiv e l'implementazione effettiva, su larga scala, in un laboratorio di frontiera LLM che funzioni in modo generale. Sono complessivamente piuttosto ottimista che vedremo buoni progressi su questa dimensione del lavoro rimanente piuttosto presto, e ad esempio direi anche che la memoria di ChatGPT e così via sono esempi primordiali di nuovi paradigmi di apprendimento.
Nucleo cognitivo. Il mio precedente post sul "nucleo cognitivo": l'idea di ridurre i LLM, di rendere più difficile per loro memorizzare, o di rimuovere attivamente la loro memoria, per renderli migliori nella generalizzazione. Altrimenti si appoggiano troppo su ciò che hanno memorizzato. Gli esseri umani non possono memorizzare così facilmente, il che ora sembra più una caratteristica che un difetto in confronto. Forse l'incapacità di memorizzare è una sorta di regolarizzazione. Anche il mio post di un po' di tempo fa su come la tendenza nella dimensione del modello sia "all'indietro" e perché "i modelli devono prima diventare più grandi prima di poter diventare più piccoli".
Viaggio nel tempo a Yann LeCun 1989. Questo è il post che ho descritto in modo molto affrettato/scadente nel podcast: fondamentalmente - quanto potresti migliorare i risultati di Yann LeCun con la conoscenza di 33 anni di progresso algoritmico? Quanto erano vincolati i risultati da ciascuno degli algoritmi, dati e calcoli? Studio di caso lì.
nanochat. La mia implementazione end-to-end del pipeline di addestramento/inferenza di ChatGPT (le basi essenziali).
Sugli agenti LLM. La mia critica all'industria è più nel superare gli strumenti rispetto alle capacità attuali. Vivo in quello che vedo come un mondo intermedio dove voglio collaborare con i LLM e dove i nostri pro e contro sono allineati. L'industria vive in un futuro in cui entità completamente autonome collaborano in parallelo per scrivere tutto il codice e gli esseri umani sono inutili. Ad esempio, non voglio un agente che vada via per 20 minuti e torni con 1.000 righe di codice. Certamente non mi sento pronto a supervisionare un team di 10 di loro. Vorrei procedere a blocchi che posso tenere in mente, dove un LLM spiega il codice che sta scrivendo. Vorrei che dimostrasse a me che ciò che ha fatto è corretto, voglio che estragga la documentazione API e mi mostri che ha usato le cose correttamente. Voglio che faccia meno assunzioni e chieda/collabori con me quando non è sicuro di qualcosa. Voglio imparare lungo il cammino e diventare migliore come programmatore, non solo ricevere montagne di codice che mi viene detto funzionano. Penso solo che gli strumenti dovrebbero essere più realistici rispetto alle loro capacità e a come si inseriscono nell'industria oggi, e temo che se questo non viene fatto bene potremmo finire con montagne di spazzatura che si accumulano nel software, e un aumento delle vulnerabilità, delle violazioni della sicurezza, ecc.
Automazione del lavoro. Come i radiologi stanno andando alla grande e quali lavori sono più suscettibili all'automazione e perché.
Fisica. I bambini dovrebbero imparare la fisica nell'istruzione precoce non perché continuino a fare fisica, ma perché è la materia che meglio avvia un cervello. I fisici sono le cellule staminali embrionali intellettuali. Ho un post più lungo che è stato scritto a metà nei miei draft per circa un anno, che spero di finire presto.
Grazie ancora Dwarkesh per avermi ospitato!

Dwarkesh Patel18 ott, 01:16
L'intervista di @karpathy
0:00:00 – L'AGI è ancora a un decennio di distanza
0:30:33 – Deficit cognitivi degli LLM
0:40:53 – L'RL è terribile
0:50:26 – Come apprendono gli esseri umani?
1:07:13 – L'AGI si fonderà con una crescita del PIL del 2%
1:18:24 – ASI
1:33:38 – Evoluzione dell'intelligenza e della cultura
1:43:43 - Perché la guida autonoma ha impiegato così tanto
1:57:08 - Futuro dell'istruzione
Cerca il Dwarkesh Podcast su YouTube, Apple Podcasts, Spotify, ecc. Buon ascolto!
2,86M
TV negli anni '90: accendi, guardi.
TV 2025:
- accendi, aspetta che si carichi
- popup: la TV vuole aggiornarsi, 1,5GB. No.
- scorri lateralmente, trova l'app di prime video o altro
- popup: ora l'app vuole aggiornarsi, 500MB. No!!
- Avvio dell'app... Caricamento dell'app…
- schermata di selezione dell'account
- 🫠
1,6M
Entusiasta di rilasciare un nuovo repo: nanochat!
(è tra i più slegati che abbia scritto).
A differenza del mio precedente repo simile nanoGPT che copriva solo il pre-addestramento, nanochat è una pipeline di addestramento/inferenza full-stack minimale, da zero, di un semplice clone di ChatGPT in un'unica base di codice con dipendenze minime. Accendi una macchina GPU cloud, esegui un singolo script e in appena 4 ore puoi parlare con il tuo LLM in un'interfaccia web simile a ChatGPT.
Pesa ~8.000 righe di codice, a mio avviso piuttosto pulito, per:
- Addestrare il tokenizer utilizzando una nuova implementazione in Rust
- Pre-addestrare un LLM Transformer su FineWeb, valutare il punteggio CORE su una serie di metriche
- Addestrare a metà su conversazioni utente-assistente da SmolTalk, domande a scelta multipla, utilizzo di strumenti.
- SFT, valutare il modello di chat su conoscenze generali a scelta multipla (ARC-E/C, MMLU), matematica (GSM8K), codice (HumanEval)
- RL il modello opzionalmente su GSM8K con "GRPO"
- Inferenza efficiente del modello in un motore con cache KV, semplice prefill/decode, utilizzo di strumenti (interprete Python in un sandbox leggero), parlargli tramite CLI o WebUI simile a ChatGPT.
- Scrivere un singolo rapporto markdown, riassumendo e gamificando il tutto.
Anche per un costo di circa ~$100 (~4 ore su un nodo 8XH100), puoi addestrare un piccolo clone di ChatGPT con cui puoi in qualche modo parlare, e che può scrivere storie/poesie, rispondere a domande semplici. Circa ~12 ore superano il punteggio CORE di GPT-2. Man mano che aumenti verso ~$1000 (~41,6 ore di addestramento), diventa rapidamente molto più coerente e può risolvere semplici problemi di matematica/codice e sostenere test a scelta multipla. Ad esempio, un modello di profondità 30 addestrato per 24 ore (questo è circa equivalente ai FLOPs di GPT-3 Small 125M e 1/1000 di GPT-3) ottiene punteggi nei 40 su MMLU e 70 su ARC-Easy, 20 su GSM8K, ecc.
Il mio obiettivo è ottenere l'intero stack "strong baseline" in un unico repo coeso, minimale, leggibile, hackabile e massimamente forkabile. nanochat sarà il progetto finale di LLM101n (che è ancora in fase di sviluppo). Penso che abbia anche il potenziale per crescere in un sistema di ricerca o un benchmark, simile a nanoGPT prima di esso. Non è affatto finito, sintonizzato o ottimizzato (in realtà penso che ci sia probabilmente un bel po' di frutta a basso costo), ma penso che sia a un punto in cui lo scheletro complessivo sia abbastanza ok da poter essere caricato su GitHub dove tutte le sue parti possono essere migliorate.
Il link al repo e un dettagliato walkthrough della speedrun di nanochat sono nella risposta.

4,62M
Principali
Ranking
Preferiti