Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

François Chollet
Medgründer @ndea. Medgründer @arcprize. Skaperen av Keras og ARC-AGI. Forfatter av 'Deep Learning with Python'.
Artikkelen «Hierarchical Reasoning Models» har gått rundt i det siste, og samlet titusenvis av likes på Twitter på tvers av dusinvis av semi-virale tråder, noe som er ganske uvanlig for en forskningsartikkel.
Papiret hevder 40,3 % nøyaktighet på ARC-AGI-1 med en liten modell (27 millioner parametere) trent fra bunnen av uten eksterne treningsdata - hvis det er ekte, vil dette representere et stort gjennombrudd for resonnement.
Jeg gjorde nettopp et dypdykk på papiret og kodebasen ...
Den er god å lese, detaljert, men likevel lett å følge. Jeg synes ideene som presenteres er ganske interessante, og arkitekturen er sannsynligvis verdifull.
Konseptet minner meg om mange forskjellige ideer jeg møtte i løpet av «gullalderen» for DL-arkitekturforskning, rundt 2016-2018. Denne typen forskning har ikke vært populær på en stund, så det er hyggelig å se fornyet interesse for alternative arkitekturer.
Det eksperimentelle oppsettet ser imidlertid ut til å være kritisk feil, noe som betyr at vi foreløpig ikke har noe empirisk signal (i det minste fra ARC-AGI) om hvorvidt arkitekturen faktisk er nyttig eller ikke.
ARC-AGI-1-eksperimentet gjør følgende, basert på min lesning av dataforberedelseskoden:
1. Tren på 876 404 oppgaver, som er utvidelsesgenererte varianter av 960 opprinnelige oppgaver:
... 400 fra ARC-AGI-1/tog
... 400 fra ARC-AGI-1/eval
... 160 fra ConceptARC
2. Test på 400 oppgaver (ARC-AGI-1/eval), ved å utvide hver oppgave til ~1000 varianter (i virkeligheten er det bare 368 151 totalt på grunn av særegenheter i utvidelsesprosessen), produsere en prediksjon for hver variant, og redusere prediksjoner til N=2 via flertallsavstemning.
Kort sagt: de trener på testdataene.
Du spør kanskje, vent, hvorfor er nøyaktigheten 40 % da, i stedet for 100 %? Er modellen alvorlig underfit?
Det er fordi treningsdataene og testdataene representerer de samme opprinnelige oppgavene *i forskjellige varianter*. Dataforsterkning brukes uavhengig på evalueringsoppgavene i treningsdataene og evalueringsoppgavene i testdataene.
Så det eksperimentet måler, omtrent, er hvordan modellen klarer å generalisere til prosedyregenererte varianter av de samme oppgavene (dvs. om modellen kan lære å reversere et fast sett med statiske netttransformasjoner).
Så -- ikke bli for begeistret ennå. Men jeg tror denne typen arkitekturforskning er verdifull (når den ledsages av et skikkelig empirisk valideringssignal) og at HRM-ideen er veldig interessant.
Dessuten, for å være tydelig, tror jeg ikke forfatterne hadde noen intensjon om å villede og skjule det eksperimentelle problemet -- de skjønte sannsynligvis ikke hva treningsoppsettet deres faktisk betydde.
19,62K
François Chollet lagt ut på nytt
Et kjennetegn på menneskelig intelligens er evnen til rask tilpasning, og løser nye problemer raskt under nye og ukjente forhold. Hvordan kan vi bygge maskiner for å gjøre det?
I vår nye preprint foreslår vi at ethvert generelt intelligenssystem må ha en adaptiv verdensmodell, det vil si at de raskt må kunne konstruere eller foredle sin interne representasjon gjennom interaksjon og utforskning – en prosess vi kaller "verdensmodellinduksjon".
Vi foreslår et veikart for evaluering av adaptive verdensmodeller i maskiner basert på en spesiell klasse spill vi kaller "nye spill".

59K
Av de 20 beste amerikanske teknologiselskapene etter markedsverdi, er det bare 1 som har hovedkontor i SF (Salesforce). Det er mindre enn Austin (som har 2).
Hovedtyngden av amerikanske teknologiselskaper har hovedkontor i Santa Clara fylke (11 av de 20 beste). Den nærmeste større byen (mye) er San Jose.
SF er over 1 time unna (opptil 2 hvis det er trafikk).

Trae Stephens19. juli 2025
Det er bare fire tier-1-byer i : 🇺🇸
New York (finans)
DC (regjeringen)
San Francisco (teknologi)
LA (media og underholdning)
Ingen andre byer er maktsentre for ambisiøse talenter. Unnskyld.
155,24K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til