Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Článek "Hierarchické modely uvažování" v poslední době koluje a na Twitteru sbírá desítky tisíc lajků v desítkách polovirálních vláken, což je u výzkumné práce docela neobvyklé.
Článek tvrdí, že ARC-AGI-1 s přesností 40,3 % s malým modelem (27M parametrů) trénovaným od nuly bez jakýchkoli externích trénovacích dat – pokud by to bylo skutečné, představovalo by to zásadní průlom v uvažování.
Právě jsem se hluboce ponořil do papíru a kódové základny...
Je to dobré čtení, podrobné, ale snadno sledovatelné. Myslím, že prezentované nápady jsou docela zajímavé a architektura je pravděpodobně cenná.
Tento koncept mi připomíná mnoho různých nápadů, se kterými jsem se setkal během "zlatého věku" výzkumu architektury DL, přibližně v letech 2016-2018. Tento typ výzkumu nebyl nějakou dobu populární, takže je hezké vidět obnovený zájem o alternativní architektury.
Experimentální nastavení se však zdá být kriticky chybné, což znamená, že v současné době nemáme žádný empirický signál (alespoň z ARC-AGI) o tom, zda je architektura skutečně užitečná nebo ne.
Experiment ARC-AGI-1 dělá na základě mého čtení kódu pro přípravu dat následující:
1. Trénujte na 876 404 úkolech, které jsou variantami 960 původních úkolů generovaných rozšířením:
... 400 z ARC-AGI-1/vlak
... 400 z ARC-AGI-1/eval
... 160 od společnosti ConceptARC
2. Testujte na 400 úkolech (ARC-AGI-1/eval) rozšířením každého úkolu do ~1000 variant (ve skutečnosti je to celkem pouze 368 151 kvůli idiosynkraziím procesu augmentace), vytvořením předpovědi pro každou variantu a snížením předpovědí na N=2 prostřednictvím většinového hlasování.
Stručně řečeno: trénují na testovacích datech.
Můžete se ptát, počkat, proč je přesnost 40 % a ne 100 %? Je model silně podfitovaný?
Je to proto, že trénovací data a testovací data představují stejné původní úlohy *v různých variantách*. Rozšíření dat se aplikuje nezávisle na úlohách eval v trénovacích datech a na úlohy eval v testovacích datech.
Experiment tedy zhruba měří, jak se modelu podaří zobecnit na procedurálně generované varianty stejných úloh (tj. zda se model dokáže naučit obrátit pevnou sadu statických transformací mřížky).
Takže – zatím se příliš nevzrušujte. Ale myslím si, že tento druh výzkumu architektury je cenný (pokud je doprovázen řádným empirickým ověřovacím signálem) a že myšlenka HRM je velmi zajímavá.
Aby bylo jasno, nemyslím si, že autoři měli v úmyslu uvést v omyl a zakrýt experimentální problém – pravděpodobně si neuvědomili, co jejich tréninkové nastavení ve skutečnosti znamená.
19,61K
Top
Hodnocení
Oblíbené