Un enorme sblocco infrastrutturale da parte del fondatore @_xjdr. XJDR è un mad scientist, quindi ci ho messo un po' a capire (e penso ancora di non comprendere appieno il potenziale) Sta riscrivendo completamente lo stack di addestramento per i modelli Mixture of Experts MoE (l'architettura dietro DeepSeek) per i ricercatori con risorse computazionali limitate (cioè il mondo al di fuori degli hyperscalers) Normalmente, l'addestramento di questi modelli sparsi richiede enormi cluster ed è molto instabile. XJDR ha costruito un nuovo stack da zero per renderlo efficiente anche su un singolo nodo Infrastruttura standard: Richiede enormi cluster GPU (spesso instabili) Lo Stack di XJDR: Scalabilità prevedibile su un singolo GPU fino a 8 nodi GPU. La sfumatura qui è che, piuttosto che fare affidamento su una potenza computazionale bruta per smussare gli errori, ha risolto i colli di bottiglia ingegneristici specifici come il collasso del router per rendere l'addestramento a precisione mista stabile su hardware ridotto. Ha anche costruito una pipeline dati di livello frontier dove 120B modelli oracle valutano i dati per garantire che i modelli più piccoli apprendano più velocemente. TLDR: Sta rendendo open source l'intero repository della fabbrica, gli strumenti per i dati e i pesi per democratizzare le capacità di ricerca a livello Google per l'individuo. Congratulazioni @_xjdr. Siamo oltre entusiasti di essere una piccola parte del tuo viaggio. Sicuro di dire che siamo incredibilmente entusiasti di vedere il tuo lavoro.