Dada a enorme - e crescente - importância da computação em tempo de teste e RL pós-treinamento mostrada pelo domínio absoluto do Grok-4, ser o produtor de tokens de baixo custo é mais importante do que nunca. Como um aparte, esta é a primeira vez em minha carreira como investidor em tecnologia que ser o produtor de baixo custo de qualquer coisa importa. Hoje, os produtores de tokens de menor custo são Google (TPUs) e xAI (maior cluster coerente, menor capex $ por GPU implantada, quase certamente maior MFU e tomaram algumas decisões arquitetônicas realmente inteligentes). Obviamente, sou tendencioso quando se trata de xAI. De uma perspectiva exclusivamente técnica, ter a melhor rede de expansão e o descarregamento de cache KV mais eficiente são mais importantes para o custo e a latência para os modelos e janelas de contexto cada vez maiores. Esses são os eixos mais importantes de competição na infraestrutura de IA hoje - não na computação. Observe que a largura de banda de memória no pacote é mais importante quando você pode encaixar o modelo em um único chip (@cerebras), mas para qualquer modelo realmente grande que exija vários pacotes, o aumento de escala e o descarregamento de cache kv são mais importantes. Como todos que trabalham em ASICs estão lentamente começando a entender. É por isso que o Dynamo e o NVLink de código aberto eram importantes e inteligentes. Este último pode levar cada vez mais à migração de ações ASIC para parceiros NVLink. Sem mencionar os benefícios naturais de negociação de ter um segundo fornecedor. É provável que veja mais desses IMHO:
97,58K