Rask gjennomlesning av Deepseeks nye artikkel om Manifold-Constrained Hyper-Connections: - Du vil øke reststørrelsen fra 1×C til n×C (n strømmer i stedet for 1). Tidligere restoppdatering: x' = x + lag(x). La x være n×C, og bruk x' = Ax + B-lag (Cx) i stedet. A, B, C er alle avhengige av x og er små matriser (n×n, n×1, n×1). A virker som den mest innflytelsesrike. Dette er Hyper-Connections (HC). - HC har samme problem som andre residualmodifikasjonsskjemaer – til slutt eksploderer/forsvinner produktet av de lærte A-matrisene (langs identitetsbanen). - For å fikse dette projiserer de A-matrisene på Birkhoff-polytopen (enklere ord: transformer den, etter exp for å gjøre elementene positive, til en matrise hvor radsummer og kolonnesummer blir 1 – kalt en dobbeltstokastisk matrise). Dette har fine egenskaper – produkter av denne typen matriser har fortsatt rad- og kolonnesum 1 (på grunn av lukking), så ting eksploderer ikke (spektral bundet), og invarianten er at summen av vekter over strømmene er 1. For n = 1 blir dette den standard residualstrømmen, noe som er fint. Deres transformasjonsmetode er enkel – alternativt del rader og kolonner med rad- og kolonnesummer i henholdsvis 20 iterasjoner (konvergerer mot vår ønskede matrise når iterasjonene går mot uendelig). De finner ut at 20 er godt nok for både fremover- og bakoverpass (over 60 lag, maksimal bakovergevinst er 1,6 i motsetning til 3000 fra vanlig HC, og 1,6 er ikke veldig annerledes enn 1). - Å komponere disse matrisene (konveks skall av alle permutasjonsmatriser) fører til informasjonsblanding etter hvert som lagindeksen øker, noe som er en fin intuisjon og også vises veldig tydelig i deres sammensatte matrise for 60 lag. Jeg tror vi samlet sett får en vektet sum av residualbaner (tenker på gradienter), hvor logisk grupperbare stier har vekter som summerer til 1. Ganske prinsippfast tilnærming etter min mening, gjør også gevinstene (forover og bakover) veldig stabile. - Interessant å merke seg – mye "pooling"-aktig blanding i første halvdel sammenlignet med andre halvdel av lagene. Andre halvdel av lagene behandler forskjellige kanaler mer presist/skarpt enn første halvdel, ganske intuitivt. - De endrer også parameteriseringen av B og C (sigmoid i stedet for tanh, sannsynligvis for å unngå å endre fortegn, og en faktor 2 foran B, tror jeg for å bevare gjennomsnittlig residual multiplikator, trenger ikke C dette fordi input uansett er forhåndsnormert). - Kule systemoptimaliseringer for å gjøre dette operativt raskt – de gjør kjernefusjon, omberegning i mHC-bakoverpasset, og modifiserer til og med DualPipe (deres pipeline-parallellisme-implementering). - Kun 6,7 % overhead i trening når n = 4, tap går ned med 0,02 og forbedringer på tvers av referansene.