Artikkelen «Hierarchical Reasoning Models» har gått rundt i det siste, og samlet titusenvis av likes på Twitter på tvers av dusinvis av semi-virale tråder, noe som er ganske uvanlig for en forskningsartikkel. Papiret hevder 40,3 % nøyaktighet på ARC-AGI-1 med en liten modell (27 millioner parametere) trent fra bunnen av uten eksterne treningsdata - hvis det er ekte, vil dette representere et stort gjennombrudd for resonnement. Jeg gjorde nettopp et dypdykk på papiret og kodebasen ... Den er god å lese, detaljert, men likevel lett å følge. Jeg synes ideene som presenteres er ganske interessante, og arkitekturen er sannsynligvis verdifull. Konseptet minner meg om mange forskjellige ideer jeg møtte i løpet av «gullalderen» for DL-arkitekturforskning, rundt 2016-2018. Denne typen forskning har ikke vært populær på en stund, så det er hyggelig å se fornyet interesse for alternative arkitekturer. Det eksperimentelle oppsettet ser imidlertid ut til å være kritisk feil, noe som betyr at vi foreløpig ikke har noe empirisk signal (i det minste fra ARC-AGI) om hvorvidt arkitekturen faktisk er nyttig eller ikke. ARC-AGI-1-eksperimentet gjør følgende, basert på min lesning av dataforberedelseskoden: 1. Tren på 876 404 oppgaver, som er utvidelsesgenererte varianter av 960 opprinnelige oppgaver: ... 400 fra ARC-AGI-1/tog ... 400 fra ARC-AGI-1/eval ... 160 fra ConceptARC 2. Test på 400 oppgaver (ARC-AGI-1/eval), ved å utvide hver oppgave til ~1000 varianter (i virkeligheten er det bare 368 151 totalt på grunn av særegenheter i utvidelsesprosessen), produsere en prediksjon for hver variant, og redusere prediksjoner til N=2 via flertallsavstemning. Kort sagt: de trener på testdataene. Du spør kanskje, vent, hvorfor er nøyaktigheten 40 % da, i stedet for 100 %? Er modellen alvorlig underfit? Det er fordi treningsdataene og testdataene representerer de samme opprinnelige oppgavene *i forskjellige varianter*. Dataforsterkning brukes uavhengig på evalueringsoppgavene i treningsdataene og evalueringsoppgavene i testdataene. Så det eksperimentet måler, omtrent, er hvordan modellen klarer å generalisere til prosedyregenererte varianter av de samme oppgavene (dvs. om modellen kan lære å reversere et fast sett med statiske netttransformasjoner). Så -- ikke bli for begeistret ennå. Men jeg tror denne typen arkitekturforskning er verdifull (når den ledsages av et skikkelig empirisk valideringssignal) og at HRM-ideen er veldig interessant. Dessuten, for å være tydelig, tror jeg ikke forfatterne hadde noen intensjon om å villede og skjule det eksperimentelle problemet -- de skjønte sannsynligvis ikke hva treningsoppsettet deres faktisk betydde.
19,61K