Minha opinião sobre as GPUs terem uma utilidade real de vida útil de 1-2 anos em vez de +4 anos está abrindo muitas questões, então deixe-me explicar com mais detalhes: Primeiro, todos os contra-argumentos são os seguintes "mas H100, A100 ainda estão sendo usados e têm de 3 a 5 anos", "os clientes usarão GPUs antigas para cargas de trabalho de inferência", "a grande tecnologia está usando GPUs antigas para cargas de trabalho internas" Aqui está o motivo pelo qual esse é o pensamento errado: 1. As pessoas esquecem que $NVDA passou para um ciclo de produto de 1 ano em 2024 (não antes!), então a Blackwell ainda é o produto de um ciclo de produto de 2 anos. Antes do Blackwell Hopper -H100, o H200 era o produto e, antes disso, o A100 era o produto. Então, em primeiro lugar, o H100 não é um produto de 3 anos; é um produto de 1 ano em termos de ciclo de produto (logo após Blackwell). A Nvidia também começou a enviar o H100 com grandes volumes no início de 2023. A partir de hoje, todos os anos teremos um novo produto que terá um desempenho significativamente mais alto (10x-30x) e eficiente do que a geração anterior, portanto, não a cada 2 anos, mas a cada ano. 2. Estamos fazendo a transição de um mundo onde cada implantação adicional de GPU/acelerador é incremental para um mundo onde a maior parte da implantação é de substituição (não incremental), pois somos limitados. Estamos limitados pela energia e pelos data centers disponíveis. Então, é claro, quando você tem uma abundância de espaço e energia do data center, você também estará usando as GPUs "antigas", pois você tem espaço suficiente para implantá-las. Mas uma vez que você fica sem espaço de implantação e é limitado, seu fator limitante é a energia e, portanto, você está procurando quantos tokens você gera por watt que você tem. Se a nova geração de GPUs lhe der 10x mais tokens/watt do que a anterior, se você quiser crescer e atender mais clientes, terá que substituí-la pela nova geração, e não poderá "usar" a GPU "antiga", pois não tem onde implantá-la. Novamente, o que deve ser entendido é que estamos passando de GPU escassa para POWER escassa, e isso muda as coisas. 3. Pintar uma imagem de "ah, mas as GPUs antigas serão usadas para cargas de trabalho internas" está errado. Há apenas um punhado de empresas que têm o luxo de ter seu próprio negócio em nuvem, além de ter também um grande consumidor ou empresa, que pode assumir algumas dessas GPUs mais antigas (novamente, mesmo esses casos de uso serão drasticamente reduzidos à medida que entramos na fase descrita no argumento 2). Os provedores de nuvem não terão demanda suficiente e boas margens para executar a "antiga" geração de GPUs para clientes de nuvem, pois essas GPUs não são ativos que apenas ganham dinheiro depois que você as compra; eles também custam. Eles custam energia (os preços da eletricidade estão subindo), custam em resfriamento e custam em manutenção. 4. A inferência com modelos de pensamento e raciocínio mudou drasticamente. Agora, um modelo menor e com menor desempenho em termos de parâmetros pode ter um desempenho melhor do que um modelo maior, se você der a ele mais computação no lado da inferência "para pensar". A computação de inferência também é um novo paradigma de escala. O que isso significa é que a diferença se você executar a inferência em um H100, ou um B300, ou um B200 é enorme. Também estamos movendo o mercado de cargas de trabalho de treinamento para inferência. Com o treinamento, a métrica mais importante dos laboratórios de pesquisa de IA era o desempenho e a velocidade com que eles poderiam treinar novos modelos. Como agora estamos entrando na era da inferência, a métrica mais importante são os custos, portanto, se o B300 fornecer 10x-30x a quantidade de tokens pelos mesmos custos de uma GPU mais antiga, você o substituirá, pois deseja atender o maior número possível de clientes e deseja obter algum lucro. De acordo com relatórios recentes, a OAI está perdendo US$ 3 para cada US$ 1 que ganha. Isso não durará para sempre, e uma das coisas mais importantes a mudar é executar inferência nas novas e eficientes GPUs/aceleradores.