Tämä MIT-artikkeli räjäytti tajuntani 🤯 Artikkeli käsittelee "ARC":ää ja se muutti täysin sen, miten näen vertailuarvon. Tutkijat eivät käsitelleet ARC:ää lainkaan logiikkapalapelinä. He käsittelivät jokaista tehtävää visuaalisena muutoksena. Ruudukko sisään → ruudukko ulos. Ei mitään monimutkaisempaa kuin se. He rakensivat pienen Vision Transformerin, kouluttivat sen alusta alkaen ARC:n pienellä aineistolla ja käyttivät yksinkertaista kangastemppua asettaakseen jokaisen esimerkin kuvaksi. Sitten he lisäsivät mittakaavamuutoksia, käännöksiä ja perusvisuaalisia ennakkoja, joita näkee klassisessa konenäön työssä. Siinä se. Ei ajatusketjua, ei vihjeitä, ei nokkelia symbolisia temppuja. Vain malli, joka katsoo pikseleitä ja oppii, miten muodot liikkuvat, kääntyvät, kasvavat, romahtavat tai siirtyvät. Se villi osa? Tämä pieni malli saavuttaa pelkästään 54,5 % ja U-Netin kanssa yhdistettynä 60,4 %. Se on suunnilleen keskimääräistä ihmisen suorituskykyä mallilla, joka sopii pienen mobiilisovelluksen kokoiseksi. ARC:n näkeminen ratkaistuna tällä tavalla saa koko vertailukohdan tuntumaan erilaiselta. Tehtävät näyttävät yhtäkkiä kuvakartoituksilta piilotettujen sääntöjen sijaan. Reflektiotehtävät näyttävät oikeasti heijastuksilta. Symmetriatehtävät näyttävät symmetrialta. Painovoimatehtävät näyttävät siltä, että palaset "putoavat" suoraan kankaalle. ...