Dit MIT-rapport heeft me gewoon omvergeblazen 🤯 Het rapport gaat over "ARC" en het heeft volledig veranderd hoe ik de benchmark zie. De onderzoekers behandelden ARC helemaal niet als een logisch raadsel. Ze beschouwden elke taak als een visuele transformatie. Raster in → raster uit. Niets ingewikkelder dan dat. Ze bouwden een kleine Vision Transformer, trainden deze vanaf nul op de kleine dataset van ARC, en gebruikten een eenvoudige canvas-truc om elk voorbeeld als een afbeelding te plaatsen. Vervolgens voegden ze schaalveranderingen, vertalingen en basis visuele prioren toe die je zou zien in klassiek computer vision-werk. Dat is het. Geen chain-of-thought, geen prompts, geen slimme symbolische trucs. Gewoon een model dat naar pixels kijkt en leert hoe vormen bewegen, draaien, groeien, ineenstorten of overdragen. Het wilde deel? Dit kleine model behaalt 54,5% alleen en 60,4% wanneer het gecombineerd wordt met een U-Net. Dat is ongeveer gelijk aan de gemiddelde menselijke prestatie met een model dat past in de grootte van een kleine mobiele app. ARC op deze manier opgelost zien, maakt de hele benchmark anders aanvoelen. De taken lijken plotseling op afbeeldingsmappingen in plaats van verborgen regels. Reflectietaken zien er daadwerkelijk uit als reflecties. Symmetrietaken zien eruit als symmetrie. Zwaartekracht-taken zien eruit als stukken die "recht naar beneden" op het canvas "vallen". ...