Mi opinión sobre las GPU teniendo una utilidad real de 1-2 años en lugar de +4 años está abriendo muchas preguntas, así que déjame explicar con más detalle: Primero, todos los argumentos en contra son los siguientes: "pero las H100, A100 todavía se están utilizando y tienen entre 3 y 5 años", "los clientes usarán GPU antiguas para cargas de trabajo de inferencia", "las grandes empresas tecnológicas están utilizando GPU antiguas para cargas de trabajo internas". Aquí está la razón por la que este es un pensamiento erróneo: 1. La gente olvida que $NVDA ha pasado a un ciclo de producto de 1 año en 2024 (¡no antes!), así que Blackwell sigue siendo el producto de un ciclo de producto de 2 años. Antes de Blackwell, Hopper -H100, H200 era el producto, y antes de eso, el A100 era el producto. Así que, en primer lugar, la H100 no es un producto de 3 años; es un producto de 1 año en términos de ciclo de producto (justo después de Blackwell). Nvidia también comenzó a enviar la H100 con volúmenes serios a principios de 2023. A partir de hoy, cada año obtendremos un nuevo producto que será significativamente más eficiente (10x-30x) que la generación anterior, así que no cada 2 años, sino cada año. 2. Estamos haciendo la transición de un mundo donde cada implementación adicional de GPU/acelerador es incremental a un mundo donde la mayor parte de la implementación es reemplazo (no incremental), ya que estamos limitados. Estamos limitados por la energía y los centros de datos disponibles. Así que, por supuesto, cuando tienes una abundancia de espacio en centros de datos y energía, también vas a estar utilizando las GPU "antiguas", ya que tienes suficiente espacio para implementarlas. Pero una vez que te quedas sin ese espacio de implementación y estás limitado, tu factor limitante es la energía, y por lo tanto estás buscando cuántos tokens generas por vatio que tienes. Si la nueva generación de GPU te da 10x los tokens/vatio que la anterior, si quieres crecer y atender a más clientes, tendrás que reemplazarla con la nueva generación, y no puedes "usar" la GPU "antigua", ya que no tienes ningún lugar para implementarla. Nuevamente, lo que hay que entender es que estamos pasando de una escasez de GPU a una escasez de ENERGÍA, y esto cambia las cosas. 3. Pintar un cuadro de "oh, pero las GPU antiguas se usarán para cargas de trabajo internas" es erróneo. Solo hay un puñado de empresas que tienen el lujo de tener su propio negocio en la nube, además de tener también un gran negocio de consumo o empresarial, que puede asumir algunas de estas GPU más antiguas (nuevamente, incluso estos casos de uso se reducirán drásticamente a medida que entremos en la fase descrita en el argumento 2). Los proveedores de la nube no tendrán suficiente demanda y buenos márgenes para operar la generación "antigua" de GPU para clientes de la nube, ya que estas GPU no son activos que solo generan dinero una vez que las compras; también tienen costos. Tienen costos de energía (los precios de la electricidad están subiendo), tienen costos de refrigeración y tienen costos de mantenimiento. 4. La inferencia con modelos de pensamiento y razonamiento ha cambiado drásticamente. Ahora, un modelo más pequeño y menos eficiente en términos de parámetros puede funcionar mejor que un modelo más grande, si le das más capacidad de cómputo en el lado de la inferencia "para pensar". La computación de inferencia también es un nuevo paradigma de escalado. Lo que eso significa es que la diferencia si ejecutas inferencia en una H100, o una B300, o una B200 es enorme. También estamos moviendo el mercado de cargas de trabajo de entrenamiento a inferencia. Con el entrenamiento, la métrica más importante para los laboratorios de investigación de IA era el rendimiento y la velocidad a la que podían entrenar nuevos modelos. A medida que ahora entramos en la era de la inferencia, la métrica más importante son los costos, así que si la B300 te da 10x-30x la cantidad de tokens por los mismos costos que una GPU más antigua, la reemplazarás, ya que quieres atender a tantos clientes como puedas, y quieres obtener algún beneficio. Según informes recientes, OAI está perdiendo $3 por cada $1 que gana. Esto no durará para siempre, y una de las cosas más importantes que cambiará es ejecutar inferencia en las nuevas y eficientes GPU/aceleradores.