Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI bij Keen Technologies, voormalig CTO Oculus VR, oprichter Id Software en Armadillo Aerospace
#PaperADay 6
LOKALE KENMERKUITWISSELING VOOR GENERALISATIE IN VERSTERKINGSLEER
Er is een goede discussie over generalisatie, zowel in het algemeen (ha) als meer specifiek in RL, maar het idee dat wordt gepresenteerd is heel eenvoudig, en ik ga het een kans geven:
CLOP: Kanaal-consistente lokale permutaties
Gegeven een 3D-tensor (4D met batch), met een bepaalde kans op elke locatie, verwissel willekeurig de positie met een buur, waarbij alle kanalen als een eenheid worden verwisseld. Net als bij dropout vermindert dit overfitting door co-adaptatie, maar het zet geen kanalen op nul, het verplaatst ze gewoon.
Ik ben het eens met het idee dat data-augmentatie in de latente ruimte efficiënter is voor generalisatie dan in de invoerruimte. Ze stellen voor om dit zo laag mogelijk in de ruimtelijke hiërarchie te doen, maar het zou waarschijnlijk geen goed idee zijn op een 2x2-niveau, waar er maar vier mogelijke permutaties zijn en elk daarvan de helft van de ruimtelijke informatie verstoort.
Let op dat ze de kans op verwisseling per spel hebben afgestemd, wat over het algemeen niet wordt gedaan bij het rapporteren van resultaten over een reeks spellen.
De resultaten op pure supervisie-leertaken waren niet opmerkelijk, maar zouden beter kunnen zijn met de CLOP op verschillende plaatsen en met verschillende trainingsrecepten.
234
Gary Gygax was in mijn pantheon van helden als tiener D&D-speler, maar ik wist echt niet veel over hem voordat ik dit boek las. Het dichtstbijzijnde dat ik kwam was het vragen aan Margaret Weis, een van de Dragonlance-auteurs en een kennis van mijn vader, over hem aan de telefoon toen ik 13 was.
De bredere impact van D&D (de spellen van Id Software werden kort aan het einde genoemd) overtrof ver de financiële opbrengsten voor hem, en zijn weg was behoorlijk ruw, maar het klinkt alsof hij tegen het einde in een vrij goede plek terechtkwam als "koning van de nerds".
Overlijden op 69 na veel gezondheidsproblemen is een herinnering voor degenen onder ons in de 50 dat we voor onszelf moeten zorgen.
@MikeWitwer

672
#PaperADay 3 (hopend dat ingesloten links genoeg deboosten zodat niet te veel mensen zich aan deze inhoud storen)
@ylecun is recentelijk actueel geweest, dus vandaag heb ik het volgende doorgenomen:
Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
Ik ben het in grote lijnen eens met het idee dat de belangrijke voorspellingen van interne representaties zijn, niet van pixels, dus generatieve modellen kunnen enigszins contraproductief zijn, of op zijn minst onnodig inefficiënt voor veel taken.
Echter, ik denk dat de interne voorspelling op een meer gedetailleerd niveau moet plaatsvinden dan volledige beeldverwerking, op het niveau van minicolumnen of zelfs neuronen, en met meer van een temporeel component dan lokale masking.
Zelfsupervised training werkt op een grote dataset zonder idee wat er later van het model gevraagd zal worden, gewoon kennis opbouwen uit de data. Daarna kun je een eenvoudige lineaire classifier (lineaire probe) trainen op de output en behoorlijk goede prestaties behalen. De beste lineaire probes op bevroren zelfsupervised modellen zijn niet zo sterk als end-to-end getrainde classifiers, maar dezelfde SSM kan sterk zijn voor veel verschillende taken tegelijk.
Het artikel merkt op dat in tegenstelling tot JEPA, invariantie-gebaseerde trainingsmethoden die hetzelfde beeld nemen en het op twee verschillende manieren augmenteren terwijl ze representatieve gelijkenis behouden, hun prestaties behalen ten koste van een door de onderzoeker bevooroordeeld set van beeldaugmentaties, wat niet overdraagbaar is naar andere modaliteiten zoals audio of tekst. Ik merk op dat JEPA zeer gevoelig is voor de exacte masking die wordt uitgevoerd (tabel 6), wat niet te veel anders aanvoelt.
De target encoder lijkt oppervlakkig op de moderne formulering van het target model in DQN RL-netwerken met een EMA van de gewichten in plaats van een occasionele kopie, maar terwijl het een stabiliteitsaid was voor RL (en niet altijd nodig is), heeft het hier een meer fundamenteel doel om te voorkomen dat het model representaties in triviaal te voorspellen vormen laat instorten. Dit, samen met LayerNorm dat ook een cruciaal element daarvan is, wordt niet expliciet in het artikel vermeld, en ik moest elders naar verwijzingen zoeken.
Het is een beetje eigenaardig dat ze een willekeurige crop van 0.85-1.0 op de context toepassen, maar alleen blokken van rechts en onder verwijderen. Ik verwachtte een ablation van die crop te zien.
Het verhogen van de beeldresolutie is een beetje een vreemde manier om het model te schalen. Het is waarschijnlijk niet echt de resolutie die helpt, maar het totale aantal patches.
Er is een grote hoeveelheid werk over zelfsupervisie waar ik slechts vaag mee bekend ben, dus ik mis waarschijnlijk enkele belangrijke onderscheidende aspecten van JEPA. Ik worstel nog steeds met de kernvraag van precies wat de contexten leren, en hoe de modelarchitectuur en training het wegsturen van instorting begeleiden.
688
Boven
Positie
Favorieten
