Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi kunde reproducera de starka resultaten från HRM-artikeln om ARC-AGI-1.
Dessutom körde vi en serie ablationsexperiment för att gå till botten med vad som ligger bakom.
Viktiga resultat:
1. HRM-modellens arkitektur i sig (artikelns mittpunkt) är inte en viktig faktor.
2. Den yttre förfiningsslingan (som knappt nämns i dokumentet) är den främsta drivkraften för prestanda.
3. Att lära sig överföring över uppgifter är inte till stor hjälp. Det viktiga är utbildning på de uppgifter du ska testa på.
4. Du kan använda mycket färre dataförstärkningar, särskilt vid inferenstid.
Att hitta 2 och 3 innebär att detta tillvägagångssätt är ett fall av "zero-pretraining test-time training*", liknande den nyligen publicerade "ARC-AGI without pretraining"-artikeln av Liao et al.
332,54K
Topp
Rankning
Favoriter