DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ein massives Infrastruktur-Unlock durch den Gründer @_xjdr. XJDR ist ein verrückter Wissenschaftler, daher hat es einige Zeit gedauert, bis ich es verstanden habe (und ich denke immer noch, dass ich das Potenzial wahrscheinlich nicht vollständig verstehe) Er schreibt den Trainings-Stack für Mixture of Experts MoE-Modelle (die Architektur hinter DeepSeek) für Forscher mit begrenzten Rechenressourcen (d.h. die Welt außerhalb der Hyperscaler) komplett neu. Normalerweise erfordert das Training dieser spärlichen Modelle massive Cluster und ist sehr instabil. XJDR hat einen neuen Stack von Grund auf neu entwickelt, um es effizient auf so wenig wie einem einzigen Knoten zu machen. Standard-Infrastruktur: Erfordert massive GPU-Cluster (oft instabil) XJDRs Stack: Vorhersehbare Skalierung auf einem einzelnen GPU bis zu 8 GPU-Knoten. Der Unterschied hier ist, dass er anstatt sich auf brute-force Rechenleistung zu verlassen, um Fehler zu glätten, die spezifischen Ingenieurbottlenecks wie Router-Kollaps gelöst hat, um das Training mit gemischter Präzision auf kleiner Hardware stabil zu machen. Er hat auch eine erstklassige Datenpipeline gebaut, in der 120B Oracle-Modelle die Daten bewerten, um sicherzustellen, dass die kleineren Modelle schneller lernen. TLDR: Er macht die gesamten Factory-Repos, Datentools und Gewichte Open Source, um Google-niveau Forschungsfähigkeiten für den Einzelnen zu demokratisieren. Glückwunsch @_xjdr. Wir sind überaus begeistert, ein kleiner Teil deiner Reise zu sein. Man kann sagen, dass wir unglaublich aufgeregt sind, dass du deine Arbeit teilst.

Top

Ranking

Favoriten