Un desbloqueo masivo de infraestructura por parte del fundador @_xjdr. XJDR es un científico loco, así que me costó varias veces entenderlo (y sigo pensando que probablemente no entiendo del todo el potencial) Está reescribiendo por completo la pila de entrenamiento para los modelos MoE de Mezcla de Expertos (la arquitectura detrás de DeepSeek) para investigadores con computación limitada (es decir, el mundo fuera de los hiperescaladores) Normalmente, entrenar estos modelos dispersos requiere clústeres masivos y es muy inestable. XJDR construyó una nueva pila desde cero para hacerla eficiente con tan solo un solo nodo Infraestructura estándar: Requiere clústeres de GPU masivos (a menudo inestables) Stack de XJDR: Escalado predecible en una sola GPU a 8 nodos GPU. La particularidad aquí es que, en lugar de depender del cálculo por fuerza bruta para suavizar errores, resolvió cuellos de botella específicos de ingeniería como el colapso del router para hacer que el entrenamiento de precisión mixta fuera estable en hardware pequeño. También construyó una pipeline de datos de vanguardia donde los modelos oráculo 120B califican los datos para asegurar que los modelos más pequeños aprendan más rápido. Resumen: Está abriendo el código de todos los repositorios de fábrica, herramientas de datos y pesos para democratizar las capacidades de investigación a nivel de Google para el individuo. Enhorabuena @_xjdr. Estamos más que emocionados de ser una pequeña parte de tu camino. Puedo decir que estoy muy emocionado de que compartas tu trabajo