DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Um enorme desbloqueio de infraestrutura pelo fundador @_xjdr. XJDR é um cientista louco, então levei algumas vezes para entender isso (e ainda acho que provavelmente não entendo totalmente o potencial) Ele está reescrevendo completamente a pilha de treinamento para modelos MoE Mixture of Experts (a arquitetura por trás do DeepSeek) para pesquisadores com computação limitada (ou seja, o mundo fora dos hiperescaladores) Normalmente, treinar esses modelos esparsos requer clusters massivos e é muito instável. A XJDR construiu uma nova pilha do zero para torná-la eficiente com apenas um único nó Infraestrutura Padrão: Requer clusters de GPU massivos (frequentemente instáveis) Stack do XJDR: Escalonamento previsível em uma única GPU para 8 nós de GPU. A nuance aqui é que, em vez de depender da computação bruta para suavizar erros, ele resolveu gargalos específicos de engenharia, como o colapso do roteador, para tornar o treinamento de precisão mista estável em hardware pequeno. Ele também construiu um pipeline de dados de nível pioneiro onde modelos oráculos 120B avaliam os dados para garantir que os modelos menores aprendam mais rápido. Resumindo: Ele está abrindo o código de todos os repositórios da fábrica, ferramentas de dados e pesos para democratizar as capacidades de pesquisa em nível do Google para o indivíduo. Parabéns @_xjdr. Estamos muito animados em fazer parte da sua jornada. Posso dizer que estou extremamente animado por você compartilhar seu trabalho

Melhores

Classificação

Favoritos