DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

#PaperADay 3 (sper ca linkurile încorporate să reducă suficient de mult din boost încât să nu fie prea mulți deranjați de acest conținut) @ylecun a fost de actualitate recent, așa că astăzi am trecut prin următoarea: Învățare auto-supravegheată din imagini cu o arhitectură predictivă cu inserție articulară Sunt, în linii mari, de acord cu ideea că predicțiile importante sunt ale reprezentărilor interne, nu ale pixelilor, astfel încât modelele generative pot fi oarecum contraproductive sau cel puțin ineficiente pentru multe sarcini. Totuși, tind să cred că predicția internă trebuie să aibă loc la un nivel mai granular decât procesarea completă a imaginilor, la nivel mini-coloană sau chiar neural, și cu o componentă mai temporală decât o mascare locală. Antrenamentul auto-supravegheat funcționează pe un set de date mare, fără nicio idee ce se va cere modelului mai târziu, ci doar construind cunoștințe din date. Ulterior, poți antrena un clasificator liniar simplu (sondă liniară) pe ieșire și să obții performanțe destul de bune. Cele mai bune sonde liniare pe modelele înghețate auto-supravegheate nu sunt la fel de puternice ca clasificatoarele antrenate end-to-end, dar același SSM poate fi puternic pentru multe sarcini diferite în același timp. Articolul menționează că, spre deosebire de JEPA, metodele de antrenament bazate pe invarianță care iau aceeași imagine și o completează în două moduri diferite, menținând totodată similaritatea reprezentațională, obțin performanța în detrimentul unui set de augmentări de imagine părtinitoare de cercetător, care nu se transferă la alte modalități precum audio sau text. Observ că JEPA este foarte sensibilă la mascarea exactă efectuată (tabelul 6), care nu pare prea diferită. Encoderul țintă este superficial similar cu formularea modernă a modelului țintă în rețelele RL DQN, cu un EMA al greutăților în loc de o copie ocazională, dar, deși a fost un ajutor de stabilitate pentru RL (și nu este întotdeauna necesar), are aici un scop mai fundamental: să prevină colapsarea reprezentărilor în unele triviale de prezis. Aceasta, împreună cu faptul că LayerNorm este și un element crucial al acesteia, nu este explicată în lucrare și a trebuit să găsesc referințe la el în altă parte. E cam ciudat că aplică un decupaj aleatoriu 0.85-1.0 contextului, dar elimină doar blocurile din dreapta și jos. Mă așteptam să văd o ablație a acelei recolte. Creșterea rezoluției imaginii este o metodă puțin ciudată de a scala modelul. Probabil că nu rezolvarea ajută de fapt, ci numărul total de patch-uri. Există un corp mare de lucrări despre autosupraveghere cu care sunt doar vag familiarizat, așa că probabil îmi scapă câteva aspecte cheie care diferențiază JEPA. Încă mă confrunt cu întrebarea de bază a ceea ce învață exact contextele și cum arhitectura modelului și antrenamentul îl ghidează departe de colaps.

Limită superioară

Clasament

Favorite