DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Snabb genomläsning av Deepseeks nya artikel om Manifold-Constrained Hyper-Connections: - Du vill öka reststorleken från 1×C till n×C (n strömmar istället för 1). Tidigare restuppdatering: x' = x + lager(x). Gör x till n×C och använd x' = Ax + B-lager (Cx) istället. A, B, C är alla beroende av x och är små matriser (n×n, n×1, n×1). A verkar vara den mest påverkan. Detta är Hyper-Connections (HC). - HC har samma problem som andra residual modifieringsscheman – till slut exploderar/försvinner produkten av de inlärda A-matriserna (längs identitetsvägen). - För att åtgärda detta projicerar de A-matriserna på Birkhoff-polytopen (enklare ord: transformera den, efter exp för att göra elementen positiva, till en matris vars radsummor och kolumnsummor blir 1 – kallad en dubbelstokastisk matris). Detta har fina egenskaper – produkter av dessa typer av matriser har fortfarande rad- och kolumnsumma 1 (på grund av slutenhet), så saker exploderar inte (spektral gräns), och invarianten är att summan av vikter över strömmar är 1. För n = 1 blir detta den vanliga restströmmen, vilket är trevligt. Deras transformationsmetod är enkel – alternativt dividera rader och kolumner med rad- respektive kolumnsummor i 20 iterationer (konvergerar mot vår önskade matris när iterationerna går mot oändligheten). De tycker att 20 är tillräckligt för både framåt- och bakåtpass (över 60 lager, maximal bakåtförstärkning är 1,6 jämfört med 3000 från vanlig HC, och 1,6 är inte särskilt fel från 1). - Att komponera dessa matriser (konvext hölje av alla permutationsmatriser) leder till informationsblandning när lagerindexet ökar, vilket är en fin intuition och visas mycket tydligt i deras sammansatta matris för 60 lager. Jag tror att vi överlag får en viktad summa av residuala vägar (tänker på gradienter), där logiskt grupperbara vägar har vikter som summerar till 1. Ganska principfast tillvägagångssätt enligt mig, gör också vinsterna (framåt och bakåt) mycket stabila. - Intressant att notera – mycket "pooling"-liknande blandning i första halvan jämfört med andra halvan av lagren. Andra halvan av lagren behandlar olika kanaler mer precist/skarpt än första halvan, ganska intuitivt. - De ändrar också parameteriseringen av B och C (sigmoid istället för tanh, troligen för att undvika teckenbyte, och en faktor 2 framför B, tror jag för att bevara medelresidual multiplikator, behöver C inte detta eftersom indata ändå är förnormad). - Coola systemoptimeringar för att göra detta operativt snabbt – de gör kärnfusion, omberäkningar i mHC-bakåtpasset och modifierar till och med DualPipe (deras pipeline-parallellismimplementation). - Endast 6,7 % overhead i träning när n = 4, förlusten minskar med 0,02 och förbättringar över benchmarks.

Topp

Rankning

Favoriter