DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Un desbloqueo masivo de infraestructura por el fundador @_xjdr. XJDR es un científico loco, así que me tomó varias veces entenderlo (y aún creo que probablemente no entiendo completamente el potencial) Él está reescribiendo completamente la pila de entrenamiento para modelos de Mezcla de Expertos (MoE) (la arquitectura detrás de DeepSeek) para investigadores con recursos computacionales limitados (es decir, el mundo fuera de los hiperescaladores) Normalmente, entrenar estos modelos dispersos requiere clústeres masivos y es muy inestable. XJDR construyó una nueva pila desde cero para hacerla eficiente en tan solo un nodo Infraestructura estándar: Requiere clústeres masivos de GPU (a menudo inestables) La pila de XJDR: Escalado predecible en una sola GPU hasta 8 nodos de GPU. La sutileza aquí es que, en lugar de depender de la computación de fuerza bruta para suavizar errores, él resolvió los cuellos de botella de ingeniería específicos como el colapso del enrutador para hacer que el entrenamiento de precisión mixta sea estable en hardware pequeño. También construyó una tubería de datos de grado fronterizo donde 120B de modelos oráculo califican los datos para asegurar que los modelos más pequeños aprendan más rápido. Resumen: Está liberando el código fuente de todos los repositorios de la fábrica, herramientas de datos y pesos para democratizar las capacidades de investigación a nivel de Google para el individuo. Felicidades @_xjdr. Estamos más que emocionados de ser una pequeña parte de tu viaje. Es seguro decir que estamos increíblemente emocionados de que compartas tu trabajo.

Parte superior

Clasificación

Favoritos