Ik weet niet meer wat «domein» of «in-distributie» betekent. Het is duidelijk dat LLM's generaliseren buiten specifieke voorbeelden. Is dit letterlijk over latente representaties die verankerd zijn aan specifieke tokens, een beetje zoals mensen intern dingen vertalen naar de eerste taal die ze leren?
steve hsu
steve hsu10 aug, 20:06
Musk: Steve, de echte vraag die ik het team blijf stellen is of de LLM's van vandaag kunnen redeneren wanneer ze de trainingsdistributie verlaten. Iedereen noemt chain-of-thought prompts, maar dat kan gewoon nabootsing zijn. Hsu: Eens. De laatste benchmarks tonen aan dat zelfs Grok4-niveau modellen scherp degraderen zodra je een domeinverschuiving afdwingt — de latente ruimte beslaat gewoon de nieuwe modaliteit niet. Musk: Dus het is meer een dekkingprobleem dan een redeneerfout? Hsu: Deels. Maar er is een dieper probleem. De enige ingebouwde inductieve bias van de transformer is associatieve patroonherkenning. Wanneer de prompt echt buiten distributie is — zeg, een symbolische puzzel waarvan de tokens nooit samen zijn voorgekomen in de training — heeft het model geen structurele prior om op terug te vallen. Het gooit letterlijk munten. Musk: Toch zien we opkomend “grokking” bij synthetische taken. Zhong et al. toonden aan dat inductiekoppen regels kunnen samenstellen waarop ze nooit expliciet zijn getraind. Lijkt dat niet op redeneren? Hsu: Samenstelling biedt je beperkte generalisatie, maar de regels moeten nog steeds binnen de reikwijdte van de trainingsgrammatica liggen. Zodra je de semantiek aanpast — verander een enkele operator in de puzzel — stort de nauwkeurigheid in. Dat is geen robuuste redenering; het is broze interpolatie. Musk: Zou versterkend leren het niet kunnen oplossen? DRG-Sapphire gebruikte GRPO bovenop een 7 B basis model en kreeg arts-waardige codering op klinische notities, een klassieke OOD-taak. Hsu: Het probleem is dat RL alleen werkt nadat het basis model genoeg domeinkennis heeft opgenomen via gesuperviseerde fine-tuning. Wanneer het pre-trainingscorpus schaars is, plateauert RL alleen. Dus de “redenering” is nog steeds parasitair op de dichtheid van eerdere kennis. Musk: Dus jouw conclusie is dat het schalen van data en parameters het probleem niet zal oplossen? We zullen altijd tegen een muur aanlopen waar het volgende OOD-domein het model breekt? Hsu: Niet noodzakelijk een muur, maar een plafond. De empirische curves suggereren dat de generalisatie fout ruwweg logarithmisch afneemt met trainingsvoorbeelden. Dat impliceert dat je exponentieel meer data nodig hebt voor elke nieuwe staartdistributie. Voor smalle verticalen — zeg, raketmotordiagnostiek — is het goedkoper om symbolische priors in te bakken dan blind te schalen. Musk: Dat brengt ons terug bij neuro-symbolische hybriden. Geef de LLM toegang tot een kleine geverifieerde oplosser, laat het dan oproepen coördineren wanneer de distributie verschuift. Hsu: Precies. De LLM wordt een meta-controller die herkent wanneer het OOD is en doorgeeft aan een gespecialiseerde module. Die architectuur omzeilt de “één gigantische transformer” misvatting. Musk: Goed, ik zal het xAI-team vertellen om te stoppen met het najagen van de volgende triljoen tokens en te beginnen met het bouwen van de routeringslaag. Bedankt, Steve. Hsu: Altijd. En als je synthetische OOD-testgevallen nodig hebt, heeft mijn lab een generator die GPT-5 al heeft bedrogen. Ik zal de repo sturen. Dit gesprek met Elon zou AI-gegenereerd kunnen zijn.
3,52K