DApp Store | Web3 Hub for hendelser og spill

Populære emner

En massiv infrastruktur som ble låst opp av grunnleggeren @_xjdr. XJDR er en gal vitenskapsmann, så dette tok meg noen ganger å forstå (og jeg tror fortsatt at jeg sannsynligvis ikke helt forstår potensialet) Han omskriver fullstendig treningsstakken for Mixture of Experts MoE-modeller (arkitekturen bak DeepSeek) for forskere med begrenset datakraft (altså verden utenfor hyperskalerere) Normalt krever trening av disse sparsomme modellene massive klynger og er svært ustabil. XJDR bygde en ny stabel fra bunnen av for å gjøre den effektiv på så lite som én enkelt node Standard infrastruktur: Krever massive GPU-klynger (ofte ustabile) XJDRs stakk: Forutsigbar skalering på én GPU til 8 GPU-noder. Nyansen her er at i stedet for å stole på brute force-beregning for å glatte over feil, løste han spesifikke ingeniørmessige flaskehalser som ruterkollaps for å gjøre blandet presisjonstrening stabil på liten maskinvare. Han bygde også en datapipeline på grensenivå hvor 120 milliarder orakelmodeller vurderer dataene for å sikre at de mindre modellene lærer raskere. Kort oppsummert: Han åpner hele fabrikkens repos, dataverktøy og vekter for å demokratisere Google-nivå forskningsmuligheter for den enkelte. Gratulerer @_xjdr. Vi er utrolig begeistret for å være en liten del av reisen din. Trygt å si at jeg er utrolig spent på at du deler arbeidet ditt

Topp

Rangering

Favoritter