DApp Store | Centrum Web3 pro události a hry

Populární témata

Marvin Tong (t/acc)

Trust Machine @PhalaNetwork, Private ChatGPT @redpill_gpt, Investiční @pakafund

inovovali základní strukturu, kterou AI firmy používají po mnoho let... Jsem opravdu ohromený!

Rychlé přečtení Deepseekova nového článku o hyperpropojeních omezených mnohostmi: - Chcete zvětšit velikost rezidua z 1×C na n×C (n proudů místo 1). Dřívější reziduální aktualizace: x' = x + vrstva(x). Nastavte x jako n×C a použijte místo toho x' = Ax + B vrstva (Cx). A, B, C jsou všechny závislé na x a jsou malé matice (n×n, n×1, n×1). A se zdá být nejvíc působivá. To jsou hyperpropojení (HC). - HC má stejný problém jako ostatní schémata reziduální modifikace – nakonec součin naučených matic A (podél cesty identity) vybuchne/zmizí. - Aby to opravili, promítnou matice A na Birkhoffův polytop (jednodušší slova: transformují jej po exp, aby prvky byly kladné, na matici, jejíž součty řádků a sloupcové součty jsou 1 – nazývaná dvojitě stochastická matice). To má pěkné vlastnosti – součiny těchto typů matic mají stále součet řádků a sloupců 1 (kvůli uzavření), takže věci neexplodují (spektrálně omezené), a invariant je, že součet vah napříč proudy je 1. Pro n = 1 se toto stává standardním zbytkovým proudem, což je příjemné. Jejich metoda transformace je jednoduchá – alternativně dělit řádky a sloupce podle součtu řádků a sloupců pro 20 iterací (konverguje k požadované matici, když iterace směřují k nekonečnu). Zjistili, že 20 je dostatečné pro forward i backward pass (přes 60 vrstev je maximální backward gain 1,6 oproti 3000 z běžného HC a 1,6 není moc odlišné od 1). - Složení těchto matic (konvexní obal všech permutačních matic) vede k míchání informací s rostoucím indexem vrstev, což je pěkná intuice a je také velmi jasně ukázáno v jejich složené matici pro 60 vrstev. Myslím, že celkově dostaneme vážený součet zbytkových cest (myslíme na gradienty), kde logicky seskupitelné cesty mají hmotnosti součet 1. Podle mě je to docela zásadový přístup, navíc dělá pokroky (vpřed i zpět) velmi stabilní. - Zajímavé je – v první polovině je hodně míchání podobného "poolingu" oproti druhé polovině vrstev. Druhá polovina vrstev zpracovává různé kanály přesněji/ostře než první polovina, což je docela intuitivní. - Také mění parametrizaci B a C (sigmoid místo tanh, pravděpodobně aby se předešlo změně značek, a faktor 2 před B, věřím, aby se zachoval reziduální násobitel, C to nepotřebuje, protože vstup je stejně přednormovaný). - Skvělé optimalizace systémů, aby byla tato operace rychlá – provádějí fúzi jader, přepočítávají v mHC zpětném pass a dokonce upravují DualPipe (jejich implementaci paralelizmu pipeline). - Pouze 6,7 % režijní náklady při trénování, když n = 4, ztráta klesá o 0,02 a zlepšení napříč benchmarky.

Top

Hodnocení

Oblíbené