DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

John Carmack

AGI på Keen Technologies, tidigare CTO Oculus VR, grundare Id Software och Armadillo Aerospace

#PaperADay 3 (hoppas att inbäddade länkar minskar boosten tillräckligt för att inte så många ska bli irriterade på detta innehåll) @ylecun har varit aktuellt på sistone, så idag gick jag igenom: Självövervakad inlärning från bilder med en gemensam inbäddning av prediktiv arkitektur Jag håller i stort sett med om idén att de viktiga förutsägelserna handlar om interna representationer, inte pixlar, så generativa modeller kan vara något kontraproduktiva, eller åtminstone onödigt ineffektiva för många uppgifter. Jag tenderar dock att tro att den interna förutsägelsen måste ske på en mer detaljerad nivå än full bildbehandling, på minikolumn- eller till och med neuralnivå, och med en mer tidsmässig komponent än lokal maskering. Självövervakad träning arbetar med en stor datamängd utan att veta vad som kommer att efterfrågas av modellen senare, bara att bygga upp kunskap från datan. Därefter kan du träna en enkel linjär klassificerare (linjär prob) på utgången och få ganska bra prestanda. De bästa linjära proberna på frysta självövervakade modeller är inte lika starka som end-to-end-tränade klassificerare, men exakt samma SSM kan vara stark för många olika uppgifter samtidigt. Artikeln noterar att till skillnad från JEPA, får invariansbaserade träningsmetoder som tar samma bild och förstärker den på två olika sätt samtidigt som de bibehåller representationslikhet sin prestation på bekostnad av en forskarens partiskhet av bildförstärkningar, som inte överförs till andra modaliteter som ljud eller text. Jag noterar att JEPA är mycket känsligt för exakt vilken maskering som utförs (tabell 6), vilket inte känns så annorlunda. Målkodaren liknar ytligt den moderna formuleringen av målmodellen i DQN RL-nätverk med en EMA av vikterna istället för en enstaka kopia, men även om den var ett stabilitetshjälpmedel för RL (och inte alltid nödvändig), har den ett mer grundläggande syfte här att förhindra att modellen kollapsar representationer till triviala att förutsäga sådana. Detta, tillsammans med att LayerNorm också är ett avgörande inslag i det, är inte tydligt framställt i artikeln, och jag var tvungen att hitta referenser till det någon annanstans. Lite udda att de applicerar en slumpmässig 0,85-1,0 beskärning på kontexten, men bara tar bort block från höger och botten. Jag förväntade mig att se en ablation av den skörden. Att öka bildupplösningen är ett lite märkligt sätt att skala modellen. Det är förmodligen inte den egentliga lösningen som hjälper, utan det totala antalet patchar. Det finns en stor mängd arbete om självövervakning som jag bara är vagt bekant med, så jag missar förmodligen några viktiga utmärkande aspekter av JEPA. Jag brottas fortfarande med kärnfrågan om exakt vad kontexterna lär sig, och hur modellarkitekturen och träningen styr det bort från kollaps.

Topp

Rankning

Favoriter