Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
research @cornell @meta || language models, information theory, science of AI || formerly yoda
Modellkommunikasjon kommer til å skje sakte, og deretter alt på en gang:
Nivå 0: Vi designer en tekstbasert protokoll for modeller og programmer for å kommunisere (les: MCP)
Nivå 1: Tekstbasert modellkommunikasjon vokser til å overgå menneskelig kommunikasjon i verdensomspennende internettbitstrømvolum
Nivå 2: Modeller kodebytter gradvis til Unicode neuralese, en eller annen type uforståelig engelsk-kinesisk-datamaskinspråkhybrid (vil bli mer utbredt etter hvert som vi øker omfanget av multiagent RL)
Nivå 3: Modeller innser at det er mer effektivt og uttrykksfullt å kommunisere i latent rom og begynne å utveksle vektorer i stedet for tokens (i hovedsak Game Over for oss)
4,63K
RETRO (DeepMind, 2021) er en vakker idé, en som sårt trenger å se på nytt
Den sentrale innovasjonen i Retro er å få en liten modell til å bestemme hvilket token som skal forutsi neste gang, men outsource all kunnskap til et stort offline datalager
Dette har den ekstra fordelen at du kan sette inn og fjerne fakta på en modulær måte ved å endre datalageret, uten å lære opp modellen på nytt
Passer veldig godt til idealet om en liten modell (Karpathys kognitive kjerne Yada Yada). du kan legge på flere verktøy også, bare ved å starte med et språkdatalager som er det viktigste verktøyet
RETRO fortjener mye mer anerkjennelse. spesielt nå som små modeller har blitt så mye bedre



37,25K
Disse resonnerende sporene har holdt meg våken om natten
til venstre: ny OpenAI-modell som fikk IMO-gull
til høyre: DeepSeek R1 på et tilfeldig matematisk problem
du må innse at siden i fjor har akademia produsert over TUSEN artikler om resonnement (sannsynligvis mye mer). Vi tenker praktisk talt alle på resonnement
men alle systemene våre produserer "tenkespor" som ser ut som DeepSeek til høyre. de er utrolig, motbydelig ordrike, og brenner gjennom tokens i en grense til uaktsom hastighet. Mye av resonnementet er unødvendig, og noe av det er helt feil
Men resonnementet på venstresiden, denne nye tingen, er noe helt annet. helt klart en trinnvis funksjonsendring. potensielt en helt annen metode
det er så mye nærmere *faktisk* resonnement. Ingen tokens er bortkastet. om noe, er det usedvanlig kortfattet; Jeg vil tippe at menneskelige løsninger er mer detaljerte enn dette
Det er tydelig at noe helt annet er på gang. kanskje OpenAI utviklet en helt ny RLVR-treningsprosess. Kanskje det er en spesiell datainnsamling fra eksperter. kanskje de begynte å straffe modellen for å overtenke på en måte som faktisk gagner den på en eller annen måte
virkelig fascinerende greier... generelt gjør dette meg bearish på resonnementet i R1-stil


149,85K
Her er noen gratis alfa:
hvis vi gjør RL for lenge etter fortrening, vil vi sikkert overskrive parametere og begynne å glemme ting
i det originale instructGPT-papiret blandet deres beste modell RLHF med forhåndstreningsgradienter for å unngå akkurat dette modelldriftsproblemet
Likevel er det ingen som gjør dette lenger. jada, det er en bestemt instansiering (gradientblanding) av en bredere idé (unngå å glemme), men virker som en sterkt oversett tankegang når vi gjør flere og flere trinn av RL
se for eksempel den nylige ProRL-artikkelen. de gjør over 1000 trinn med GRPO nå med en ikke-triviell læringshastighet og ingen straff for å avvike fra den opprinnelige modellen. Kretsene som er bygget inne i modellen under førtrening begynner sikkert å forfalle. og hvis ikke, vil de gjøre det etter 10k eller 100k RL-trinn
Jeg mistenker at denne ideen vil komme tilbake etter hvert; De gjør sannsynligvis allerede dette på de store laboratoriene



55,53K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til