En massiv infrastruktur som öppnades upp av grundaren @_xjdr. XJDR är en galen vetenskapsman så det tog mig några gånger att förstå (och jag tror fortfarande att jag inte helt förstår potentialen) Han håller på att helt omskriva träningsstacken för Mixture of Experts MoE-modeller (arkitekturen bakom DeepSeek) för forskare med begränsad beräkningskraft (dvs. världen utanför hyperskalerare) Normalt kräver träning av dessa gles modeller massiva kluster och är mycket instabilt. XJDR byggde en ny stack från grunden för att göra den effektiv på så lite som en enda nod Standardinfrastruktur: Kräver massiva GPU-kluster (ofta instabila) XJDR:s stack: Förutsägbar skalning på en GPU till 8 GPU-noder. Nyansen här är att han, istället för att förlita sig på brute force-beräkningar för att släta över fel, löste de specifika tekniska flaskhalsarna som routerkollaps för att göra blandad precisionsträning stabil på liten hårdvara. Han byggde också en datapipeline av frontier-nivå där 120 miljarder oracle-modeller graderar data för att säkerställa att de mindre modellerna lär sig snabbare. Sammanfattning: Han öppnar upp hela fabriksarkiven, dataverktyg och vikter för att demokratisera Googles forskningsmöjligheter för individen. Grattis @_xjdr. Vi är oerhört glada över att få vara en liten del av din resa. Jag är otroligt entusiastisk över att du delar ditt arbete