DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Een enorme infrastructuurontgrendeling door oprichter @_xjdr. XJDR is een gekke wetenschapper, dus het heeft me een paar keer gekost om het te begrijpen (en ik denk nog steeds dat ik de potentie waarschijnlijk niet volledig begrijp) Hij herschrijft volledig de trainingsstack voor Mixture of Experts MoE-modellen (de architectuur achter DeepSeek) voor onderzoekers met beperkte rekencapaciteit (d.w.z. de wereld buiten hyperscalers) Normaal gesproken vereist het trainen van deze spaarzame modellen enorme clusters en is het zeer onstabiel. XJDR heeft een nieuwe stack vanaf nul gebouwd om het efficiënt te maken op zo weinig als een enkele node Standaard Infra: Vereist enorme GPU-clusters (vaak onstabiel) XJDR’s Stack: Voorspelbare schaalvergroting op een enkele GPU tot 8 GPU-nodes. De nuance hier is dat hij in plaats van te vertrouwen op brute rekencapaciteit om fouten glad te strijken, de specifieke engineeringknelpunten zoals routerinstorting heeft opgelost om gemengde precisietraining stabiel te maken op kleine hardware. Hij heeft ook een grensverleggende datapijplijn gebouwd waar 120B oracle-modellen de data beoordelen om ervoor te zorgen dat de kleinere modellen sneller leren. TLDR: Hij maakt de volledige fabrieksrepos, datatools en gewichten open source om Google-niveau onderzoeksvaardigheden te democratiseren voor het individu. Gefeliciteerd @_xjdr. We zijn ontzettend enthousiast om een klein deel van jouw reis te zijn. Het is veilig om te zeggen dat we ongelooflijk enthousiast zijn dat je jouw werk gaat delen.

Boven

Positie

Favorieten