Această lucrare de la MIT m-a 🤯 dat pe spate Lucrarea este despre "ARC" și mi-a schimbat complet modul în care văd reperul. Cercetătorii nu au tratat ARC deloc ca pe un puzzle logic. Au tratat fiecare sarcină ca pe o transformare vizuală. Grilă în → grilă afară. Nimic mai complicat de atât. Au construit un mic Transformator de Viziune, l-au antrenat de la zero pe micul set de date al ARC și au folosit un truc simplu de pânză pentru a plasa fiecare exemplu ca pe o imagine. Apoi au adăugat modificări de scară, traduceri și prior-uri vizuale de bază pe care le-ai vedea în lucrările clasice de viziune computerizată. Atât. Fără lanț de gânduri, fără sugestii, fără trucuri simbolice ingenioase. Doar un model care privește pixelii și învață cum se mișcă, se inversează, cresc, se prăbușește sau păstrează formele. Partea sălbatică? Acest model minuscul atinge doar 54,5% și 60,4% când este combinat cu un U-Net. Asta înseamnă exact performanța medie umană cu un model care se potrivește cu dimensiunea unei aplicații mobile mici. Să vezi ARC rezolvat în acest mod face ca întregul benchmark să pară diferit. Sarcinile par brusc ca niște mapări de imagini în loc de reguli ascunse. Sarcinile de reflecție chiar arată ca niște reflexii. Sarcinile de simetrie arată ca simetrie. Sarcinile gravitaționale arată ca niște piese care "cad" drept pe pânză. ...