Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 3 (mam nadzieję, że osadzone linki wystarczająco obniżą zasięg, aby nie za dużo osób było zirytowanych tymi treściami)
@ylecun był ostatnio na czołowej pozycji, więc dzisiaj przejrzałem:
Uczenie się bez nadzoru z obrazów za pomocą architektury predykcyjnej z wspólnym osadzeniem
Ogólnie zgadzam się z ideą, że ważne przewidywania dotyczą wewnętrznych reprezentacji, a nie pikseli, więc modele generatywne mogą być w pewnym sensie nieproduktywne, a przynajmniej niepotrzebnie nieefektywne w wielu zadaniach.
Jednakże, skłaniam się do myślenia, że wewnętrzne przewidywanie musi zachodzić na bardziej szczegółowym poziomie niż pełne przetwarzanie obrazu, na poziomie minikolumny lub nawet neuronów, i z większym komponentem czasowym niż lokalne maskowanie.
Uczenie się bez nadzoru działa na dużym zbiorze danych bez wiedzy o tym, co będzie później wymagane od modelu, po prostu budując wiedzę z danych. Następnie można wytrenować prosty klasyfikator liniowy (sonda liniowa) na wyjściu i uzyskać całkiem dobre wyniki. Najlepsze sondy liniowe na zamrożonych modelach uczonych bez nadzoru nie są tak silne jak klasyfikatory trenowane end-to-end, ale ten sam SSM może być silny w wielu różnych zadaniach jednocześnie.
Artykuł zauważa, że w przeciwieństwie do JEPA, metody treningowe oparte na inwariancji, które biorą ten sam obraz i augmentują go na dwa różne sposoby, zachowując podobieństwo reprezentacyjne, osiągają swoje wyniki kosztem zestawu augmentacji obrazów, które są stronnicze dla badacza, co nie przenosi się na inne modalności, takie jak dźwięk czy tekst. Zauważam, że JEPA jest bardzo wrażliwa na dokładne maskowanie (tabela 6), co nie wydaje się zbyt różne.
Kodowanie docelowe jest powierzchownie podobne do nowoczesnej formuły modelu docelowego w sieciach DQN RL z EMA wag zamiast okazjonalnej kopii, ale podczas gdy było to wsparcie stabilności dla RL (i nie zawsze jest konieczne), ma bardziej fundamentalny cel, aby zapobiec kolapsowi reprezentacji w trywialne do przewidzenia. To, wraz z LayerNorm, który również jest kluczowym elementem tego, nie jest jasno opisane w artykule, i musiałem znaleźć odniesienia do tego gdzie indziej.
Trochę dziwne, że stosują losowe przycięcie 0.85-1.0 do kontekstu, ale usuwają bloki tylko z prawej i dolnej strony. Spodziewałem się zobaczyć ablację tego przycięcia.
Zwiększenie rozdzielczości obrazu jest trochę dziwnym sposobem na skalowanie modelu. Prawdopodobnie to nie rozdzielczość pomaga, ale całkowita liczba łat.
Istnieje duża ilość prac na temat samonadzoru, z którą jestem tylko w nieznacznym stopniu zaznajomiony, więc prawdopodobnie brakuje mi kluczowych aspektów odróżniających JEPA. Wciąż zmagam się z podstawowym pytaniem, czego dokładnie uczą się konteksty i jak architektura modelu oraz trening kierują go z dala od kolapsu.
Najlepsze
Ranking
Ulubione
