Das Papier "Hierarchische Denkmodelle" macht zurzeit die Runde und sammelt zehntausende Likes auf Twitter in Dutzenden von semi-viralen Threads, was für ein Forschungspapier ziemlich ungewöhnlich ist. Das Papier behauptet eine Genauigkeit von 40,3 % auf ARC-AGI-1 mit einem kleinen Modell (27M Parameter), das von Grund auf ohne externe Trainingsdaten trainiert wurde – wenn das wahr ist, würde es einen bedeutenden Durchbruch im Denken darstellen. Ich habe gerade einen tiefen Einblick in das Papier und den Code geworfen... Es ist eine gute Lektüre, detailliert und dennoch leicht verständlich. Ich finde die präsentierten Ideen ziemlich interessant und die Architektur wahrscheinlich wertvoll. Das Konzept erinnert mich an viele verschiedene Ideen, die ich während des "goldenen Zeitalters" der DL-Architekturforschung, etwa 2016-2018, begegnet bin. Diese Art von Forschung war eine Zeit lang nicht populär, daher ist es schön, ein erneutes Interesse an alternativen Architekturen zu sehen. Allerdings scheint das experimentelle Setup kritisch fehlerhaft zu sein, was bedeutet, dass wir derzeit kein empirisches Signal (zumindest von ARC-AGI) haben, ob die Architektur tatsächlich hilfreich ist oder nicht. Das ARC-AGI-1-Experiment macht Folgendes, basierend auf meinem Verständnis des Datenvorbereitungs-Codes: 1. Trainieren an 876.404 Aufgaben, die augmentierte Varianten von 960 Originalaufgaben sind: ... 400 von ARC-AGI-1/train ... 400 von ARC-AGI-1/eval ... 160 von ConceptARC 2. Testen an 400 Aufgaben (ARC-AGI-1/eval), indem jede Aufgabe in ~1000 Varianten augmentiert wird (in Wirklichkeit sind es aufgrund von Eigenheiten des Augmentierungsprozesses nur 368.151 insgesamt), wobei eine Vorhersage für jede Variante erzeugt und die Vorhersagen durch Mehrheitsabstimmung auf N=2 reduziert werden. Kurz gesagt: Sie trainieren mit den Testdaten. Sie könnten fragen, warum die Genauigkeit dann 40 % beträgt und nicht 100 %? Ist das Modell stark unteranpassend? Das liegt daran, dass die Trainingsdaten und die Testdaten die gleichen Originalaufgaben *in verschiedenen Variationen* darstellen. Datenaugmentation wird unabhängig auf die Eval-Aufgaben in den Trainingsdaten und die Eval-Aufgaben in den Testdaten angewendet. Was das Experiment also grob misst, ist, wie das Modell in der Lage ist, auf prozedural generierte Varianten derselben Aufgaben zu verallgemeinern (d.h. ob das Modell lernen kann, eine feste Menge statischer Gittertransformationen umzukehren). Also – seien Sie noch nicht zu aufgeregt. Aber ich denke, dass diese Art von Architekturforschung wertvoll ist (wenn sie von einem ordentlichen empirischen Validierungssignal begleitet wird) und dass die HRM-Idee sehr interessant ist. Außerdem möchte ich klarstellen, dass ich nicht denke, dass die Autoren die Absicht hatten, irrezuführen und das experimentelle Problem zu verbergen – sie haben wahrscheinlich nicht realisiert, was ihr Trainingssetup tatsächlich bedeutete.
19,73K