Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Artikkelen «Hierarchical Reasoning Models» har gått rundt i det siste, og samlet titusenvis av likes på Twitter på tvers av dusinvis av semi-virale tråder, noe som er ganske uvanlig for en forskningsartikkel.
Papiret hevder 40,3 % nøyaktighet på ARC-AGI-1 med en liten modell (27 millioner parametere) trent fra bunnen av uten eksterne treningsdata - hvis det er ekte, vil dette representere et stort gjennombrudd for resonnement.
Jeg gjorde nettopp et dypdykk på papiret og kodebasen ...
Den er god å lese, detaljert, men likevel lett å følge. Jeg synes ideene som presenteres er ganske interessante, og arkitekturen er sannsynligvis verdifull.
Konseptet minner meg om mange forskjellige ideer jeg møtte i løpet av «gullalderen» for DL-arkitekturforskning, rundt 2016-2018. Denne typen forskning har ikke vært populær på en stund, så det er hyggelig å se fornyet interesse for alternative arkitekturer.
Det eksperimentelle oppsettet ser imidlertid ut til å være kritisk feil, noe som betyr at vi foreløpig ikke har noe empirisk signal (i det minste fra ARC-AGI) om hvorvidt arkitekturen faktisk er nyttig eller ikke.
ARC-AGI-1-eksperimentet gjør følgende, basert på min lesning av dataforberedelseskoden:
1. Tren på 876 404 oppgaver, som er utvidelsesgenererte varianter av 960 opprinnelige oppgaver:
... 400 fra ARC-AGI-1/tog
... 400 fra ARC-AGI-1/eval
... 160 fra ConceptARC
2. Test på 400 oppgaver (ARC-AGI-1/eval), ved å utvide hver oppgave til ~1000 varianter (i virkeligheten er det bare 368 151 totalt på grunn av særegenheter i utvidelsesprosessen), produsere en prediksjon for hver variant, og redusere prediksjoner til N=2 via flertallsavstemning.
Kort sagt: de trener på testdataene.
Du spør kanskje, vent, hvorfor er nøyaktigheten 40 % da, i stedet for 100 %? Er modellen alvorlig underfit?
Det er fordi treningsdataene og testdataene representerer de samme opprinnelige oppgavene *i forskjellige varianter*. Dataforsterkning brukes uavhengig på evalueringsoppgavene i treningsdataene og evalueringsoppgavene i testdataene.
Så det eksperimentet måler, omtrent, er hvordan modellen klarer å generalisere til prosedyregenererte varianter av de samme oppgavene (dvs. om modellen kan lære å reversere et fast sett med statiske netttransformasjoner).
Så -- ikke bli for begeistret ennå. Men jeg tror denne typen arkitekturforskning er verdifull (når den ledsages av et skikkelig empirisk valideringssignal) og at HRM-ideen er veldig interessant.
Dessuten, for å være tydelig, tror jeg ikke forfatterne hadde noen intensjon om å villede og skjule det eksperimentelle problemet -- de skjønte sannsynligvis ikke hva treningsoppsettet deres faktisk betydde.
19,61K
Topp
Rangering
Favoritter