Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jag vet inte vad «domän» eller «in-distribution» betyder längre. Uppenbarligen generaliserar LLM:er bortom specifika exempel.
Handlar det bokstavligen om att latenta representationer är förankrade i specifika tokens, ungefär som hur människor internt översätter saker till det första språket de lär sig?


10 aug. 20:06
Musk: Steve, den verkliga frågan jag ställer till teamet är om dagens LLM:er kan resonera när de lämnar utbildningsdistributionen. Alla citerar tankekedja, men det kan bara vara härmning.
Hsu: Håller med. De senaste benchmarks visar att till och med modeller på Grok4-nivå försämras kraftigt när du tvingar fram ett domänskifte - det latenta utrymmet sträcker sig helt enkelt inte över den nya modaliteten.
Musk: Så det är mer ett täckningsproblem än ett resonemangsfel?
Hsu: Delvis. Men det finns ett djupare problem. Transformatorns enda inbyggda induktiva förspänning är associativ mönstermatchning. När prompten verkligen är out-of-distribution – till exempel ett symboliskt pussel vars tokens aldrig inträffade under träningen – har modellen ingen struktur före att falla tillbaka på. Det vänder bokstavligen mynt.
Musk: Ändå ser vi en framväxande "grokking" på syntetiska uppgifter. Zhong et al. visade att induktionshuvuden kan komponera regler som de aldrig uttryckligen tränats på. Ser inte det ut som ett resonemang?
Hsu: Komposition ger dig begränsad generalisering, men reglerna måste fortfarande ligga i omfånget av träningsgrammatiken. Så fort du justerar semantiken – byter en enskild operator i pusslet – kollapsar noggrannheten. Det är inte ett robust resonemang; Det är spröd interpolation.
Musk: Kunde inte förstärkningsinlärning fixa det? DRG-Sapphire använde GRPO ovanpå en 7 B-basmodell och fick kodning av läkarkvalitet på kliniska anteckningar, en klassisk OOD-uppgift.
Hsu: Haken är att RL bara fungerar efter att basmodellen har matat in tillräckligt med domänkunskap via övervakad finjustering. När korpusen före träningen är gles platåer enbart RL. Så "resonemanget" parasiterar fortfarande på tidigare kunskapstäthet.
Musk: Så din slutsats är att skalning av data och parametrar inte kommer att lösa problemet? Vi kommer alltid att stöta på en vägg där nästa OOD-domän bryter modellen?
Hsu: Inte nödvändigtvis en vägg, men ett tak. De empiriska kurvorna tyder på att generaliseringsfelet avtar ungefär logaritmiskt med träningsexempel . Det innebär att du behöver exponentiellt mer data för varje ny svansfördelning. För smala vertikaler – till exempel raketmotordiagnostik – är det billigare att baka in symboliska priorer än att skala blint.
Musk: Vilket för oss tillbaka till neuro-symboliska hybrider. Ge LLM åtkomst till en liten verifierad lösare och låt den sedan orkestrera anrop när distributionen skiftar.
Hsu: Precis. LLM blir en metakontroller som känner igen när det är OOD och överlämnar till en specialiserad modul. Den arkitekturen kringgår villfarelsen om "en gigantisk transformator".
Musk: Okej, jag säger till xAI-teamet att sluta jaga nästa biljon tokens och börja bygga routinglagret. Tack, Steve.
Hsu: När som helst. Och om du behöver syntetiska OOD-testfall har mitt labb en generator som redan har lurat GPT-5. Jag skickar lagringsplatsen.
Den här konversationen med Elon kan vara AI-genererad.

3,55K
Topp
Rankning
Favoriter