DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Jason Wei

Ricercatore di intelligenza artificiale @meta SuperIntelligence Labs, Passato: OpenAI, Google 🧠

Nuovo post sul blog sull'asimmetria della verifica e la "legge del verificatore": L'asimmetria della verifica – l'idea che alcuni compiti siano molto più facili da verificare che da risolvere – sta diventando un'idea importante poiché abbiamo la RL che finalmente funziona in generale. Ottimi esempi di asimmetria di verifica sono cose come i puzzle di sudoku, la scrittura del codice per un sito Web come instagram e i problemi di BrowseComp (ci vogliono ~100 siti Web per trovare la risposta, ma è facile da verificare una volta che hai la risposta). Altre attività hanno una simmetria di verifica quasi simmetrica, come la somma di due numeri di 900 cifre o alcuni script di elaborazione dati. Tuttavia, per altri compiti è molto più facile proporre soluzioni fattibili piuttosto che verificarle (ad esempio, verificare i fatti di un lungo saggio o affermare una nuova dieta come "mangia solo bisonti"). Una cosa importante da capire sull'asimmetria di verifica è che è possibile migliorare l'asimmetria facendo un po' di lavoro in anticipo. Ad esempio, se si dispone della chiave di risposta per un problema di matematica o se si dispone di casi di test per un problema Leetcode. Ciò aumenta notevolmente l'insieme di problemi con l'asimmetria di verifica desiderabile. La "legge del verificatore" afferma che la facilità di addestramento dell'IA per risolvere un compito è proporzionale alla verificabilità del compito. Tutte le attività che è possibile risolvere e facili da verificare saranno risolte dall'intelligenza artificiale. La capacità di addestrare l'intelligenza artificiale a risolvere un'attività è proporzionale al fatto che l'attività abbia le seguenti proprietà: 1. Verità oggettiva: tutti sono d'accordo su quali siano le buone soluzioni 2. Veloce da verificare: qualsiasi soluzione può essere verificata in pochi secondi 3. Scalabile da verificare: molte soluzioni possono essere verificate contemporaneamente 4. Bassa rumorosità: la verifica è il più strettamente correlata possibile alla qualità della soluzione 5. Ricompensa continua: è facile classificare la bontà di molte soluzioni per un singolo problema Un'ovvia istanza della legge del verificatore è il fatto che la maggior parte dei parametri di riferimento proposti nell'IA sono facili da verificare e finora sono stati risolti. Si noti che praticamente tutti i benchmark popolari negli ultimi dieci anni soddisfano i criteri #1-4; I benchmark che non soddisfano i criteri #1-4 farebbero fatica a diventare popolari. Perché la verificabilità è così importante? La quantità di apprendimento nell'IA che si verifica è massimizzata quando i criteri di cui sopra sono soddisfatti; Puoi fare molti passaggi di gradiente in cui ogni passo ha molto segnale. La velocità di iterazione è fondamentale: è il motivo per cui il progresso nel mondo digitale è stato molto più veloce del progresso nel mondo fisico. AlphaEvolve di Google è uno dei più grandi esempi di sfruttamento dell'asimmetria di verifica. Si concentra su configurazioni che soddisfano tutti i criteri di cui sopra e ha portato a una serie di progressi in matematica e in altri campi. A differenza di ciò che abbiamo fatto nell'intelligenza artificiale negli ultimi due decenni, si tratta di un nuovo paradigma in cui tutti i problemi sono ottimizzati in un ambiente in cui il set di treni è equivalente al set di test. L'asimmetria della verifica è ovunque ed è eccitante considerare un mondo di intelligenza frastagliata in cui tutto ciò che possiamo misurare sarà risolto.

Non abbiamo ancora un'IA che si auto-migliora, e quando lo avremo sarà un cambiamento radicale. Con più saggezza ora rispetto ai tempi di GPT-4, è ovvio che non sarà un "decollo veloce", ma piuttosto estremamente graduale nel corso di molti anni, probabilmente un decennio. La prima cosa da sapere è che l'auto-miglioramento, cioè i modelli che si addestrano da soli, non è binario. Considera lo scenario in cui GPT-5 allena GPT-6, il che sarebbe incredibile. GPT-5 passerebbe improvvisamente dall'essere incapace di addestrare GPT-6 a farlo in modo estremamente competente? Assolutamente no. I primi tentativi di addestramento di GPT-6 sarebbero probabilmente estremamente inefficienti in termini di tempo e risorse computazionali rispetto ai ricercatori umani. E solo dopo molti tentativi, GPT-5 sarebbe effettivamente in grado di addestrare GPT-6 meglio degli esseri umani. In secondo luogo, anche se un modello potesse addestrarsi da solo, non migliorerebbe improvvisamente in tutti i domini. Esiste un gradiente di difficoltà nel quanto sia difficile migliorarsi in vari domini. Ad esempio, forse l'auto-miglioramento funziona solo inizialmente in domini che già sappiamo come risolvere facilmente dopo l'addestramento, come le allucinazioni di base o lo stile. Successivamente ci sarebbero la matematica e la programmazione, che richiedono più lavoro ma hanno metodi consolidati per migliorare i modelli. E poi, all'estremo, puoi immaginare che ci siano alcuni compiti che sono molto difficili per l'auto-miglioramento. Ad esempio, la capacità di parlare Tlingit, una lingua nativa americana parlata da circa 500 persone. Sarà molto difficile per il modello auto-migliorarsi nel parlare Tlingit poiché non abbiamo ancora modi per risolvere lingue a bassa risorsa come questa, se non raccogliendo più dati, il che richiederebbe tempo. Quindi, a causa del gradiente di difficoltà dell'auto-miglioramento, non tutto accadrà in una volta. Infine, forse questo è controverso, ma alla fine i progressi nella scienza sono bloccati da esperimenti nel mondo reale. Alcuni potrebbero credere che leggere tutti i documenti di biologia ci direbbe la cura per il cancro, o che leggere tutti i documenti di ML e padroneggiare tutta la matematica ti permetterebbe di addestrare perfettamente GPT-10. Se fosse così, allora le persone che leggono il maggior numero di documenti e studiano la maggior parte della teoria sarebbero i migliori ricercatori di IA. Ma ciò che è realmente accaduto è che l'IA (e molti altri campi) è diventata dominata da ricercatori empirici spietati, il che riflette quanto progresso si basi su esperimenti nel mondo reale piuttosto che su intelligenza grezza. Quindi il mio punto è che, sebbene un agente super intelligente potrebbe progettare esperimenti 2x o addirittura 5x migliori dei nostri migliori ricercatori umani, alla fine devono comunque aspettare che gli esperimenti vengano eseguiti, il che sarebbe un'accelerazione ma non un decollo veloce. In sintesi, ci sono molti colli di bottiglia per il progresso, non solo intelligenza grezza o un sistema di auto-miglioramento. L'IA risolverà molti domini, ma ogni dominio ha il proprio tasso di progresso. E anche la più alta intelligenza richiederà comunque esperimenti nel mondo reale. Quindi sarà un'accelerazione e non un decollo veloce, grazie per aver letto il mio sfogo.

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari