Um desbloqueio massivo de infraestrutura pelo fundador @_xjdr. XJDR é um cientista maluco, então isso me levou algumas tentativas para entender (e ainda acho que provavelmente não entendo totalmente o potencial) Ele está reescrevendo completamente a pilha de treinamento para modelos de Mistura de Especialistas (MoE) (a arquitetura por trás do DeepSeek) para pesquisadores com computação limitada (ou seja, o mundo fora dos hyperscalers) Normalmente, treinar esses modelos esparsos requer enormes clusters e é muito instável. XJDR construiu uma nova pilha do zero para torná-la eficiente em apenas um único nó Infraestrutura Padrão: Requer enormes clusters de GPU (frequentemente instáveis) A Pilha do XJDR: Escalonamento previsível em uma única GPU até 8 nós de GPU. A nuance aqui é que, em vez de depender da computação de força bruta para suavizar erros, ele resolveu os gargalos de engenharia específicos, como o colapso do roteador, para tornar o treinamento de precisão mista estável em hardware pequeno. Ele também construiu um pipeline de dados de nível de fronteira onde 120B de modelos oráculo avaliam os dados para garantir que os modelos menores aprendam mais rápido. Resumindo: Ele está tornando públicos todos os repositórios da fábrica, ferramentas de dados e pesos para democratizar as capacidades de pesquisa em nível do Google para o indivíduo. Parabéns @_xjdr. Estamos além de empolgados por fazer parte da sua jornada. É seguro dizer que estamos incrivelmente animados para você compartilhar seu trabalho.