Non so più cosa significhino «domain» o «in-distribution». Ovviamente i LLM generalizzano oltre esempi specifici. Si tratta letteralmente di rappresentazioni latenti ancorate a token specifici, un po' come le persone traducono internamente le cose nella prima lingua che apprendono?
steve hsu
steve hsu10 ago, 20:06
Musk: Steve, la vera domanda che continuo a porre al team è se i LLM di oggi possano ragionare quando escono dalla distribuzione di addestramento. Tutti citano i prompt a catena di pensieri, ma potrebbe essere solo mimetismo. Hsu: D'accordo. Gli ultimi benchmark mostrano che anche i modelli di livello Grok4 degradano bruscamente una volta che costringi a un cambiamento di dominio — lo spazio latente semplicemente non copre la nuova modalità. Musk: Quindi è più un problema di copertura che un fallimento nel ragionamento? Hsu: In parte. Ma c'è un problema più profondo. L'unico bias induttivo incorporato nel trasformatore è il matching di pattern associativo. Quando il prompt è veramente fuori distribuzione—diciamo, un puzzle simbolico i cui token non sono mai co-occorso durante l'addestramento—il modello non ha un precedente strutturale su cui fare affidamento. Letteralmente lancia monete. Musk: Eppure vediamo un “grokking” emergente su compiti sintetici. Zhong et al. hanno dimostrato che le teste di induzione possono comporre regole su cui non sono mai state esplicitamente addestrate. Non sembra ragionamento? Hsu: La composizione ti offre una generalizzazione limitata, ma le regole devono comunque rientrare nell'ambito della grammatica di addestramento. Non appena modifichi la semantica—cambi un singolo operatore nel puzzle—l'accuratezza crolla. Non è un ragionamento robusto; è un'interpolazione fragile. Musk: Non potrebbe il reinforcement learning risolverlo? DRG-Sapphire ha usato GRPO su un modello base da 7 B e ha ottenuto codifica di livello medico su note cliniche, un compito OOD classico. Hsu: Il problema è che l'RL funziona solo dopo che il modello base ha assimilato abbastanza conoscenza di dominio tramite fine-tuning supervisionato. Quando il corpus di pre-addestramento è scarso, l'RL da solo raggiunge un plateau. Quindi il “ragionamento” è ancora parassitario sulla densità di conoscenza pregressa. Musk: Quindi il tuo insegnamento è che scalare dati e parametri non risolverà il problema? Colpirà sempre un muro dove il prossimo dominio OOD rompe il modello? Hsu: Non necessariamente un muro, ma un soffitto. Le curve empiriche suggeriscono che l'errore di generalizzazione decresce in modo approssimativo in modo logaritmico con gli esempi di addestramento. Questo implica che hai bisogno di dati esponenzialmente maggiori per ogni nuova distribuzione tail. Per verticali ristretti—diciamo, diagnosi di motori a razzo—è più economico incorporare priors simbolici piuttosto che scalare alla cieca. Musk: Questo ci riporta agli ibridi neuro-simbolici. Dai all'LLM accesso a un piccolo risolutore verificato, poi lascialo orchestrare le chiamate quando la distribuzione cambia. Hsu: Esattamente. L'LLM diventa un meta-controllore che riconosce quando è OOD e passa a un modulo specializzato. Quell'architettura evita la fallacia del “un gigantesco trasformatore”. Musk: Va bene, dirò al team di xAI di smettere di inseguire i prossimi trilioni di token e iniziare a costruire il layer di routing. Grazie, Steve. Hsu: Sempre. E se hai bisogno di casi di test OOD sintetici, il mio laboratorio ha un generatore che ha già ingannato GPT-5. Ti invierò il repo. Questa conversazione con Elon potrebbe essere generata dall'AI.
3,52K