Dada a enorme - e crescente - importância do cálculo em tempo de teste e do RL pós-treinamento demonstrado pela absoluta dominância do Grok-4, ser o produtor de tokens de baixo custo é mais importante do que nunca. Como um aparte, esta é a primeira vez na minha carreira como investidor em tecnologia que ser o produtor de baixo custo de qualquer coisa teve relevância. Hoje, os produtores de tokens de menor custo são o Google (TPUs) e a xAI (maior cluster coerente, menor capex $ por GPU implantada, quase certamente maior MFU e tomaram algumas decisões arquitetônicas realmente inteligentes). Estou obviamente tendencioso quando se trata da xAI. De uma perspectiva puramente técnica, ter a melhor rede de escalonamento e o mais eficiente descarregamento de cache KV são os mais importantes tanto para o custo quanto para a latência dos modelos e janelas de contexto cada vez maiores. Estes são os eixos de competição mais importantes na infraestrutura de IA hoje - não o cálculo. Note que a largura de banda da memória em pacote é mais importante quando você pode encaixar o modelo em um único chip (@cerebras), mas para qualquer modelo realmente grande que requer múltiplos pacotes, o escalonamento e o descarregamento de cache KV são os mais importantes. Como todos que trabalham com ASICs estão começando a entender lentamente. É por isso que o Dynamo e a abertura do NVLink foram ambos importantes e inteligentes. Este último pode levar cada vez mais à migração de participação de ASIC para parceiros do NVLink. Sem mencionar os benefícios naturais de negociação de ter um segundo fornecedor. Provavelmente veremos mais disso, na minha humilde opinião:
97,57K