Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI ve společnosti Keen Technologies, bývalý technický ředitel společnosti Oculus VR, zakladatel společností Id Software a Armadillo Aerospace
#PaperADay 3 (doufám, že vložené odkazy dostatečně oslabí, aby tento obsah nebyl příliš naštvaný)
@ylecun bylo v poslední době aktuální, takže jsem dnes prošel:
Samo-řízené učení z obrázků s prediktivní architekturou společného vnoření
Obecně souhlasím s myšlenkou, že důležité předpovědi jsou vnitřní reprezentace, nikoli pixely, takže generativní modely mohou být do jisté míry kontraproduktivní, nebo alespoň zbytečně neefektivní pro mnoho úkolů.
Nicméně mám tendenci si myslet, že vnitřní predikce musí probíhat na granulitější úrovni než při plném zpracování obrazu, na úrovni minisloupců nebo dokonce neuronů, a s více časovou složkou než lokální maskováním.
Samo-supervidované trénování pracuje na velké datové sadě bez tušení, co se od modelu později bude chtít, jen buduje znalosti z dat. Poté můžete na výstup trénovat jednoduchý lineární klasifikátor (lineární sondu) a dosáhnout docela dobrého výkonu. Nejlepší lineární sondy na zmrazených samo-řízených modelech nejsou tak silné jako end-to-end trénované klasifikátory, ale přesně stejný SSM může být silný pro mnoho různých úkolů současně.
Článek uvádí, že na rozdíl od JEPA metody tréninku založené na invarianci, které berou stejný obraz a rozšiřují ho dvěma různými způsoby při zachování reprezentativní podobnosti, dosahují výkonu na úkor výzkumně zaujaté sady augmentací obrazu, která se nepřenáší na jiné modality, jako je zvuk nebo text. Všiml jsem si, že JEPA je velmi citlivá na přesné maskování (tabulka 6), což se příliš neliší od toho.
Cílový enkodér je povrchně podobný moderní formulaci cílového modelu v DQN RL sítích s EMA vah místo občasné kopie, ale i když sloužil jako pomůcka pro stabilitu RL (a není vždy nutný), má zde zásadnější účel – zabránit tomu, aby model rozpadal reprezentace na triviální pro předpověď. Toto, spolu s tím, že LayerNorm je také klíčovým prvkem, není v článku jasně uvedeno a musel jsem o tom hledat odkazy jinde.
Je trochu zvláštní, že na kontext aplikují náhodný ořez 0,85-1,0, ale bloky odstraní jen zprava a zespodu. Očekával jsem, že uvidím ablaci té úrody.
Zvýšení rozlišení obrazu je trochu zvláštní způsob, jak model škálovat. Pravděpodobně to není skutečné rozlišení, co pomáhá, ale celkový počet patchů.
Existuje rozsáhlá literatura o sebekontrole, se kterou mám jen matné zkušenosti, takže mi asi unikají některé klíčové rozlišující aspekty JEPA. Stále se potýkám se základní otázkou, co přesně se kontexty učí a jak architektura modelu a trénink vedou tento systém pryč od kolapsu.
385
Bylo by hezké, kdyby se vrátila část twitterové diaspory. Tolika kreativci, ale také mnoho vývojářů, kteří obecně obohacovali zážitek, už nejsou aktivní.
Ti, kteří odešli jen najevo, a ti, kteří mají k Elonovi vřelou nenávist, se pravděpodobně brzy nevrátí, ale mnoho lidí se prostě odpojilo z nejasných kulturních důvodů, které lze přehodnotit.
Pravděpodobně existují nějaké technické úpravy algoritmu, které by je mohly udělat pohodlnějšími. Nevadí mi existence nezávislých ozvěnových komor, ve kterých jsou lidé spokojení. Problém nastává jen tehdy, když jsou některé ozvěnové komory povoleny a jiné ne.
Ozvěte se přátelům, kteří už nebyli v práci!
143
Top
Hodnocení
Oblíbené
