Musk: Steve, todellinen kysymys, jonka kysyn tiimiltä, on, pystyvätkö nykypäivän LLM:t järkeilemään, kun he lähtevät koulutusjakelusta. Kaikki siteeraavat ajatusketjukehotteita, mutta se voi olla vain matkimista. Hsu: Samaa mieltä. Viimeisimmät vertailuarvot osoittavat, että jopa Grok4-tason mallit heikkenevät jyrkästi, kun pakotat toimialueen vaihdon – piilevä avaruus ei vain kata uutta modaliteettia. Musk: Joten se on enemmän kattavuusongelma kuin päättelyvirhe? Hsu: Osittain. Mutta on olemassa syvempi ongelma. Muuntajan ainoa sisäänrakennettu induktiivinen esijännite on assosiatiivinen kuvioiden sovitus. Kun kehote on todella jakamattoma – vaikkapa symbolinen palapeli, jonka merkit eivät koskaan esiintyneet samanaikaisesti koulutuksessa – mallilla ei ole rakenteellista ennen turvautumista. Se kirjaimellisesti heittää kolikoita. Musk: Silti näemme nousevaa "haparointia" synteettisissä tehtävissä. osoittivat, että induktiopäät voivat laatia sääntöjä, joihin heitä ei ole koskaan nimenomaisesti koulutettu. Eikö se näytä järkeilyltä? Hsu: Sommittelu ostaa rajoitetun yleistyksen, mutta sääntöjen on silti oltava harjoittelun kieliopin laajuudessa. Heti kun säädät semantiikkaa – vaihdat yksittäistä operaattoria palapelissä – tarkkuus romahtaa. Se ei ole vankkaa päättelyä; se on hauras interpolointi. Musk: Eikö vahvistusoppiminen voisi korjata sitä? DRG-Sapphire käytti GRPO:ta 7 B:n perusmallin päällä ja sai lääkäritason koodauksen kliinisiin muistiinpanoihin, mikä on klassinen OOD-tehtävä. Hsu: Juju on siinä, että RL toimii vasta, kun perusmalli on omaksunut tarpeeksi toimialueen tietoa valvotun hienosäädön avulla. Kun koulutusta edeltävä korpus on harva, RL yksin tasaantuu. Joten "päättely" on edelleen loista aiemman tiedon tiheydelle. Musk: Joten johtopäätöksesi on, että tietojen ja parametrien skaalaaminen ei ratkaise ongelmaa? Törmäämme aina seinään, jossa seuraava OOD-verkkotunnus rikkoo mallin? Hsu: Ei välttämättä seinä, vaan katto. Empiiriset käyrät viittaavat siihen, että yleistysvirhe heikkenee suunnilleen logaritmisesti harjoitusesimerkkien avulla. Tämä tarkoittaa, että tarvitset eksponentiaalisesti enemmän dataa jokaisesta uudesta häntäjakaumasta. Kapeissa vertikaaleissa – vaikkapa rakettimoottoridiagnostiikassa – on halvempaa leipoa symbolisia prioreita kuin skaalata sokeasti. Musk: Tämä tuo meidät takaisin neurosymbolisiin hybrideihin. Anna LLM:lle pääsy pieneen vahvistettuun ratkaisijaan ja anna sen sitten orkestroida puheluita, kun jakelu muuttuu. Hsu: Juuri niin. LLM:stä tulee metaohjain, joka tunnistaa, milloin se on OOD, ja luovuttaa sen erikoistuneelle moduulille. Tämä arkkitehtuuri väistää "yhden jättiläismuuntajan" harhan. Musk: Hyvä on, käsken xAI-tiimiä lopettamaan seuraavan biljoonan tokenin jahtaamisen ja aloittamaan reitityskerroksen rakentamisen. Kiitos, Steve. Hsu: Milloin tahansa. Ja jos tarvitset synteettisiä OOD-testitapauksia, laboratoriossani on generaattori, joka on jo huijannut GPT-5:tä. Lähetän repon. Tämä keskustelu Elonin kanssa saattaa olla tekoälyn luoma.
102,56K