Článek "Hierarchické modely uvažování" v poslední době koluje a na Twitteru sbírá desítky tisíc lajků v desítkách polovirálních vláken, což je u výzkumné práce docela neobvyklé. Článek tvrdí, že ARC-AGI-1 s přesností 40,3 % s malým modelem (27M parametrů) trénovaným od nuly bez jakýchkoli externích trénovacích dat – pokud by to bylo skutečné, představovalo by to zásadní průlom v uvažování. Právě jsem se hluboce ponořil do papíru a kódové základny... Je to dobré čtení, podrobné, ale snadno sledovatelné. Myslím, že prezentované nápady jsou docela zajímavé a architektura je pravděpodobně cenná. Tento koncept mi připomíná mnoho různých nápadů, se kterými jsem se setkal během "zlatého věku" výzkumu architektury DL, přibližně v letech 2016-2018. Tento typ výzkumu nebyl nějakou dobu populární, takže je hezké vidět obnovený zájem o alternativní architektury. Experimentální nastavení se však zdá být kriticky chybné, což znamená, že v současné době nemáme žádný empirický signál (alespoň z ARC-AGI) o tom, zda je architektura skutečně užitečná nebo ne. Experiment ARC-AGI-1 dělá na základě mého čtení kódu pro přípravu dat následující: 1. Trénujte na 876 404 úkolech, které jsou variantami 960 původních úkolů generovaných rozšířením: ... 400 z ARC-AGI-1/vlak ... 400 z ARC-AGI-1/eval ... 160 od společnosti ConceptARC 2. Testujte na 400 úkolech (ARC-AGI-1/eval) rozšířením každého úkolu do ~1000 variant (ve skutečnosti je to celkem pouze 368 151 kvůli idiosynkraziím procesu augmentace), vytvořením předpovědi pro každou variantu a snížením předpovědí na N=2 prostřednictvím většinového hlasování. Stručně řečeno: trénují na testovacích datech. Můžete se ptát, počkat, proč je přesnost 40 % a ne 100 %? Je model silně podfitovaný? Je to proto, že trénovací data a testovací data představují stejné původní úlohy *v různých variantách*. Rozšíření dat se aplikuje nezávisle na úlohách eval v trénovacích datech a na úlohy eval v testovacích datech. Experiment tedy zhruba měří, jak se modelu podaří zobecnit na procedurálně generované varianty stejných úloh (tj. zda se model dokáže naučit obrátit pevnou sadu statických transformací mřížky). Takže – zatím se příliš nevzrušujte. Ale myslím si, že tento druh výzkumu architektury je cenný (pokud je doprovázen řádným empirickým ověřovacím signálem) a že myšlenka HRM je velmi zajímavá. Aby bylo jasno, nemyslím si, že autoři měli v úmyslu uvést v omyl a zakrýt experimentální problém – pravděpodobně si neuvědomili, co jejich tréninkové nastavení ve skutečnosti znamená.
19,61K