A minha opinião sobre as GPUs terem uma utilidade real de 1-2 anos em vez de +4 anos está a abrir muitas questões, então deixe-me explicar em mais detalhe: Primeiro, todos os argumentos contrários são os seguintes: "mas a H100, A100 ainda estão a ser usadas e têm 3-5 anos", "os clientes vão usar GPUs antigas para cargas de trabalho de inferência", "as grandes empresas de tecnologia estão a usar GPUs antigas para cargas de trabalho internas" Aqui está o porquê de este pensamento estar errado: 1. As pessoas esquecem-se que a $NVDA passou a ter um ciclo de produto de 1 ano em 2024 (não antes!), então a Blackwell ainda é o produto de um ciclo de produto de 2 anos. Antes da Blackwell, o produto era o Hopper -H100, H200, e antes disso, o produto era o A100. Portanto, antes de mais, a H100 não é um produto de 3 anos; é um produto de 1 ano em termos de ciclo de produto (logo após a Blackwell). A Nvidia também começou a enviar a H100 com volumes significativos no início de 2023. A partir de hoje, todos os anos teremos um novo produto que será significativamente mais performante (10x-30x) e eficiente do que a geração anterior, portanto, não a cada 2 anos, mas a cada ano. 2. Estamos a fazer a transição de um mundo onde cada implantação adicional de GPU/acelerador é incremental para um mundo onde a maior parte da implantação é substituição (não incremental), uma vez que estamos limitados. Estamos limitados pela energia e pelos centros de dados disponíveis. Portanto, claro, quando você tem uma abundância de espaço e energia nos centros de dados, também vai usar as GPUs "antigas", pois tem espaço suficiente para as implantar. Mas uma vez que você fique sem esse espaço de implantação e esteja limitado, seu fator limitante é a energia, e assim você está a procurar quantos tokens você gera por watt que tem. Se a nova geração de GPUs lhe dá 10x os tokens/watt do que a anterior, se você quiser crescer e atender mais clientes, terá que substituí-la pela nova geração, e não pode "usar" a GPU "antiga", pois não tem lugar para a implantar. Novamente, a coisa a entender é que estamos a passar de uma escassez de GPU para uma escassez de ENERGIA, e isso muda as coisas. 3. Pintar um quadro de "oh, mas as GPUs antigas serão usadas para cargas de trabalho internas" está errado. Há apenas um punhado de empresas que têm o luxo de ter o seu próprio negócio de nuvem, além de ter também um grande negócio de consumo ou empresarial, que pode assumir algumas dessas GPUs mais antigas (novamente, mesmo esses casos de uso serão drasticamente reduzidos à medida que entramos na fase descrita no argumento 2). Os provedores de nuvem não terão demanda suficiente e boas margens para operar a geração "antiga" de GPUs para clientes de nuvem, uma vez que essas GPUs não são ativos que apenas geram dinheiro uma vez que você as compra; elas também custam. Custam energia (os preços da eletricidade estão a subir), custam em refrigeração e custam em manutenção. 4. A inferência com modelos de pensamento e raciocínio mudou drasticamente. Agora, um modelo menor, menos performante em termos de parâmetros pode ter um desempenho melhor do que um modelo maior, se você lhe der mais computação no lado da inferência "para pensar". A computação de inferência também é um novo paradigma de escalonamento. O que isso significa é que a diferença se você executar a inferência em uma H100, ou uma B300, ou uma B200 é enorme. Estamos também a mover o mercado de cargas de trabalho de treino para inferência. Com o treino, a métrica mais importante dos laboratórios de pesquisa em IA era o desempenho e a velocidade com que podiam treinar novos modelos. À medida que agora entramos na era da inferência, a métrica mais importante são os custos, então se a B300 lhe dá 10x-30x a quantidade de tokens pelos mesmos custos que uma GPU mais antiga, você a substituirá, pois quer atender o maior número de clientes possível e quer obter algum lucro. De acordo com relatórios recentes, a OAI está a perder $3 para cada $1 que ganha. Isso não vai durar para sempre, e uma das coisas mais importantes a mudar é executar a inferência nas novas e eficientes GPUs/aceleradores.