Il documento "Modelli di Ragionamento Gerarchico" sta facendo il giro ultimamente, raccogliendo decine di migliaia di like su Twitter attraverso dozzine di thread semi-virali, il che è piuttosto insolito per un articolo di ricerca. Il documento afferma un'accuratezza del 40,3% su ARC-AGI-1 con un modello piccolo (27M di parametri) addestrato da zero senza alcun dato di addestramento esterno -- se fosse vero, rappresenterebbe una grande svolta nel ragionamento. Ho appena fatto un'analisi approfondita del documento e del codice... È una lettura interessante, dettagliata ma facile da seguire. Penso che le idee presentate siano piuttosto interessanti e che l'architettura sia probabilmente preziosa. Il concetto mi ricorda molte idee diverse che ho incontrato durante l'"età dell'oro" della ricerca sull'architettura DL, circa 2016-2018. Questo tipo di ricerca non è stata popolare per un po', quindi è bello vedere un rinnovato interesse per architetture alternative. Tuttavia, l'impostazione sperimentale sembra essere criticamente difettosa, il che significa che attualmente non abbiamo alcun segnale empirico (almeno da ARC-AGI) su se l'architettura sia effettivamente utile o meno. L'esperimento ARC-AGI-1 sta facendo quanto segue, basandomi sulla mia lettura del codice di preparazione dei dati: 1. Addestrare su 876.404 compiti, che sono varianti generate per aumento di 960 compiti originali: ... 400 da ARC-AGI-1/train ... 400 da ARC-AGI-1/eval ... 160 da ConceptARC 2. Testare su 400 compiti (ARC-AGI-1/eval), aumentando ogni compito in ~1000 varianti (in realtà sono solo 368.151 in totale a causa delle idiosincrasie del processo di aumento), producendo una previsione per ogni variante e riducendo le previsioni a N=2 tramite voto di maggioranza. In breve: stanno addestrando sui dati di test. Potresti chiedere, aspetta, perché l'accuratezza è del 40% allora, piuttosto che del 100%? il modello è gravemente sottodimensionato? È perché i dati di addestramento e i dati di test rappresentano gli stessi compiti originali *in diverse variazioni*. L'aumento dei dati viene applicato in modo indipendente ai compiti di valutazione nei dati di addestramento e ai compiti di valutazione nei dati di test. Quindi, ciò che l'esperimento sta misurando, grosso modo, è come il modello riesce a generalizzare a varianti generate proceduralmente degli stessi compiti (cioè se il modello può imparare a invertire un insieme fisso di trasformazioni statiche della griglia). Quindi -- non ti entusiasmare troppo per ora. Ma penso che questo tipo di ricerca architettonica sia preziosa (quando accompagnata da un adeguato segnale di validazione empirica) e che l'idea HRM sia molto interessante. Inoltre, per essere chiari, non penso che gli autori avessero l'intento di ingannare e nascondere il problema sperimentale -- probabilmente non si sono resi conto di cosa significasse effettivamente la loro impostazione di addestramento.
19,63K