Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Marvin Tong (t/acc)
Trust Machine @PhalaNetwork, @redpill_gpt privat ChatGPT, @pakafund de investiții
Cea mai bună lectură recentă

Bill Gurley2 ian., 23:33
Mi-a plăcut foarte mult scrisoarea @danwwang sfârșit de an – și recomand cu căldură să o citesc. Iată paragraful meu preferat:

870
au inovat structura fundamentală pe care companiile AI au folosit-o de ani de zile... Foarte impresionat!

nor1 ian., 16:50
O lectură rapidă a noului articol Deepseek despre Manifold-Consttrained Hyper-Connections:
- Doriți să creșteți dimensiunea reziduală de la 1×C la n×C (n fluxuri în loc de 1). Actualizare reziduală anterioară: x' = x + strat(x). Fă ca x să fie n×C și să folosești x' = Ax + B strat(Cx) în schimb. A, B, C depind toate de x și sunt matrici mici (n×n, n×1, n×1). A pare cea mai puternică. Aceasta este Hiper-Conexiuni (HC).
- HC are aceeași problemă ca alte scheme de modificare reziduală - în cele din urmă, produsul matricilor A învățate (de-a lungul drumului identitate) explodează/anulează.
- Pentru a rezolva acest lucru, proiectează matricile A pe politopul Birkhoff (cuvinte mai simple: transformă-l, după exp pentru a face elementele pozitive, într-o matrice ale cărei sume de rânduri și sume de coloane devin 1 - numită matrice dublu stocastică). Aceasta are proprietăți frumoase – produsele acestor tipuri de matrici au totuși suma rândurilor și a coloanelor 1 (din cauza închiderii), deci lucrurile nu explodează (limite spectrale), iar invariantul este că suma greutăților peste fluxuri este 1. Pentru n = 1, acesta devine fluxul rezidual standard, ceea ce este util. Metoda lor de transformare este simplă – alternativ, împarte rândurile și coloanele prin sume de rânduri și coloane pentru 20 de iterații (converge către matricea dorită pe măsură ce iterațiile ajung la infinit). Ei consideră că 20 este suficient atât pentru trecerea înainte, cât și pentru cea înapoi (pe 60 de straturi, câștigul maxim înapoi este de 1,6 față de 3000 ca HC obișnuit, iar 1,6 nu este foarte diferit de 1).
- Compunerea acestor matrici (învelitoare convexă a tuturor matricelor de permutare) duce la amestecarea informațiilor pe măsură ce indicele stratului crește, ceea ce este o intuiție plăcută și este de asemenea foarte clar prezentată în matricea lor compozită pentru 60 de straturi. Cred că, în ansamblu, obținem o sumă ponderată a căilor reziduale (gândindu-mă la gradiente), unde căile logic grupabile au ponderi care însumează 1. Abordarea destul de principială, după părerea mea, face și câștigurile (înainte și înapoi) foarte stabile.
- Lucru interesant de remarcat - multă amestecare de tip "pooling" în prima jumătate comparativ cu a doua jumătate a straturilor. A doua jumătate a straturilor tratează canalele diferite mai precis și mai clar decât prima jumătate, destul de intuitiv.
- De asemenea, schimbă parametrizarea lui B și C (sigmoid în loc de tanh, probabil pentru a evita schimbarea semnelor, și un factor de 2 în fața lui B, cred că pentru a conserva multiplicatorul rezidual mediu, C nu are nevoie de asta deoarece intrarea este oricum pre-normată).
- Optimizări interesante ale sistemelor pentru a face această operațiune rapidă - fac fuziunea kernelului, recalcularea în mHC backward pass și chiar modifică DualPipe (implementarea lor de paralelism în pipeline).
- Doar 6,7% overhead în antrenament când n = 4, pierderea scade cu 0,02 și se îmbunătățesc între repere.

801
Limită superioară
Clasament
Favorite
