Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI på Keen Technologies, tidigare CTO Oculus VR, grundare Id Software och Armadillo Aerospace
#PaperADay 6
LOKAL FUNKTIONSUTBYTE FÖR GENERALISERING I FÖRSTÄRKNINGSINLÄRNING
Det finns en bra diskussion om generalisering, både i allmänhet (ha) och mer specifikt i verkligheten, men idén som presenteras är väldigt enkel, och jag ska ge den ett försök:
CLOP: Kanalkonsistente lokala permutationer
Givet en 3D-tensor (4D med batch), med viss sannolikhet på varje plats, byter slumpmässigt position med en granne och byter alla kanaler som en enhet. Precis som dropout minskar detta överanpassning genom samanpassning, men det nollställer inga kanaler, det flyttar dem bara.
Jag håller med om idén att dataförstärkning i det latenta utrymmet är mer effektivt för generalisering än i indatautrymmet. De föreslår att göra det så lågt i den rumsliga hierarkin som möjligt, men det skulle troligen inte vara en bra idé på 2x2-nivå, där det bara finns fyra möjliga permutationer och var och en av dem stör hälften av den rumsliga informationen.
Observera att de justerade byteschansen per match, vilket vanligtvis inte görs när man rapporterar resultat i en uppsättning matcher.
Resultaten på rena övervakade inlärningsuppgifter var inte anmärkningsvärda, men kan vara bättre med CLOP inlagd på olika ställen och med olika träningsrecept.
827
Gary Gygax var med i min hjältepantheon som tonårig D&D-spelare, men jag visste egentligen inte mycket om honom innan jag läste den här boken. Det närmaste jag kom var när jag frågade Margaret Weis, en av Dragonlance-författarna och bekant till min far, om honom på telefon när jag var 13.
Den bredare effekten av D&D (spelen på Id Software nämndes kort mot slutet) översteg långt de ekonomiska vinsterna för honom, och hans väg var ganska tuff, men det låter som att han etablerade sig som "nördarnas kung" i slutet.
Att dö vid 69 års ålder efter mycket dålig hälsa är en påminnelse för oss i 50-årsåldern att ta hand om oss själva.
@MikeWitwer

743
#PaperADay 3 (hoppas att inbäddade länkar minskar boosten tillräckligt för att inte så många ska bli irriterade på detta innehåll)
@ylecun har varit aktuellt på sistone, så idag gick jag igenom:
Självövervakad inlärning från bilder med en gemensam inbäddning av prediktiv arkitektur
Jag håller i stort sett med om idén att de viktiga förutsägelserna handlar om interna representationer, inte pixlar, så generativa modeller kan vara något kontraproduktiva, eller åtminstone onödigt ineffektiva för många uppgifter.
Jag tenderar dock att tro att den interna förutsägelsen måste ske på en mer detaljerad nivå än full bildbehandling, på minikolumn- eller till och med neuralnivå, och med en mer tidsmässig komponent än lokal maskering.
Självövervakad träning arbetar med en stor datamängd utan att veta vad som kommer att efterfrågas av modellen senare, bara att bygga upp kunskap från datan. Därefter kan du träna en enkel linjär klassificerare (linjär prob) på utgången och få ganska bra prestanda. De bästa linjära proberna på frysta självövervakade modeller är inte lika starka som end-to-end-tränade klassificerare, men exakt samma SSM kan vara stark för många olika uppgifter samtidigt.
Artikeln noterar att till skillnad från JEPA, får invariansbaserade träningsmetoder som tar samma bild och förstärker den på två olika sätt samtidigt som de bibehåller representationslikhet sin prestation på bekostnad av en forskarens partiskhet av bildförstärkningar, som inte överförs till andra modaliteter som ljud eller text. Jag noterar att JEPA är mycket känsligt för exakt vilken maskering som utförs (tabell 6), vilket inte känns så annorlunda.
Målkodaren liknar ytligt den moderna formuleringen av målmodellen i DQN RL-nätverk med en EMA av vikterna istället för en enstaka kopia, men även om den var ett stabilitetshjälpmedel för RL (och inte alltid nödvändig), har den ett mer grundläggande syfte här att förhindra att modellen kollapsar representationer till triviala att förutsäga sådana. Detta, tillsammans med att LayerNorm också är ett avgörande inslag i det, är inte tydligt framställt i artikeln, och jag var tvungen att hitta referenser till det någon annanstans.
Lite udda att de applicerar en slumpmässig 0,85-1,0 beskärning på kontexten, men bara tar bort block från höger och botten. Jag förväntade mig att se en ablation av den skörden.
Att öka bildupplösningen är ett lite märkligt sätt att skala modellen. Det är förmodligen inte den egentliga lösningen som hjälper, utan det totala antalet patchar.
Det finns en stor mängd arbete om självövervakning som jag bara är vagt bekant med, så jag missar förmodligen några viktiga utmärkande aspekter av JEPA. Jag brottas fortfarande med kärnfrågan om exakt vad kontexterna lär sig, och hur modellarkitekturen och träningen styr det bort från kollaps.
703
Topp
Rankning
Favoriter
