DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Un déblocage d'infrastructure massive par le fondateur @_xjdr. XJDR est un scientifique fou, donc cela m'a pris plusieurs fois pour comprendre (et je pense toujours que je ne comprends probablement pas entièrement le potentiel) Il réécrit complètement la pile d'entraînement pour les modèles Mixture of Experts MoE (l'architecture derrière DeepSeek) pour les chercheurs avec des ressources de calcul limitées (c'est-à-dire le monde en dehors des hyperscalers) Normalement, l'entraînement de ces modèles épars nécessite des clusters massifs et est très instable. XJDR a construit une nouvelle pile à partir de zéro pour la rendre efficace sur aussi peu qu'un seul nœud Infra standard : Nécessite des clusters GPU massifs (souvent instables) La pile de XJDR : Évolutivité prévisible sur un GPU unique jusqu'à 8 nœuds GPU. La nuance ici est que plutôt que de s'appuyer sur la puissance brute de calcul pour lisser les erreurs, il a résolu les goulets d'étranglement d'ingénierie spécifiques comme l'effondrement du routeur pour rendre l'entraînement en précision mixte stable sur du matériel réduit. Il a également construit un pipeline de données de pointe où 120 milliards de modèles oracle évaluent les données pour s'assurer que les modèles plus petits apprennent plus rapidement. TLDR : Il ouvre le code source de l'ensemble des dépôts d'usine, des outils de données et des poids pour démocratiser les capacités de recherche de niveau Google pour l'individu. Félicitations @_xjdr. Nous sommes au-delà de l'excitation d'être une petite partie de votre parcours. On peut dire que nous sommes incroyablement impatients que vous partagiez votre travail.

Meilleurs

Classement

Favoris