Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mi opinión sobre las GPU que tienen una utilidad real de 1-2 años de vida en lugar de +4 años está abriendo muchas preguntas, así que déjame explicarlo con más detalle:
Primero, todos los argumentos en contra son los siguientes "pero H100, A100 todavía se usan y tienen entre 3 y 5 años", "los clientes usarán GPU antiguas para cargas de trabajo de inferencia", "la gran tecnología está usando GPU antiguas para cargas de trabajo internas"
He aquí por qué este es el pensamiento equivocado:
1. La gente olvida que $NVDA ha pasado a un ciclo de producto de 1 año en 2024 (¡no antes!), Por lo que Blackwell sigue siendo el producto de un ciclo de producto de 2 años. Antes de Blackwell Hopper -H100, H200 era el producto, y antes de eso, el A100 era el producto. Entonces, en primer lugar, H100 no es un producto de 3 años; es un producto de 1 año en términos de ciclo de producto (justo después de Blackwell). Nvidia también comenzó a enviar el H100 con volúmenes importantes a principios de 2023. A partir de hoy, cada año obtendremos un nuevo producto que será significativamente más eficiente (10x-30x) y eficiente que la generación anterior, por lo que no cada 2 años sino cada año.
2. Estamos pasando de un mundo en el que cada implementación adicional de GPU/acelerador es incremental a un mundo en el que la mayor parte de la implementación es de reemplazo (no incremental), ya que estamos limitados. Estamos limitados por la energía y los centros de datos disponibles. Entonces, por supuesto, cuando tiene una gran cantidad de espacio y energía en el centro de datos, también usará las GPU "antiguas", ya que tiene suficiente espacio para implementarlas. Pero una vez que te quedas sin ese espacio de despliegue y estás limitado, tu factor limitante es la potencia, por lo que estás buscando cuántos tokens generas por vatio que tienes. Si la nueva generación de GPU te da 10 veces más tokens/vatio que la anterior, si quieres crecer y atender a más clientes, tendrás que sustituirla por la nueva generación, y no podrás "usar" la "antigua" GPU, ya que no tienes ningún lugar para desplegarla. Una vez más, lo que hay que entender es que estamos pasando de la escasez de GPU a la escasez de POTENCIA, y esto cambia las cosas.
3. Pintar una imagen de "oh, pero las GPU antiguas se usarán para cargas de trabajo internas" es incorrecto. Solo hay un puñado de empresas que tienen el lujo de tener su propio negocio en la nube, además de tener también un gran negocio de consumo o empresarial, que puede asumir algunas de estas GPU más antiguas (nuevamente, incluso estos casos de uso se reducirán drásticamente a medida que entremos en la fase descrita en el argumento 2). Los proveedores de la nube no tendrán suficiente demanda y buenos márgenes para ejecutar la "antigua" generación de GPU para los clientes de la nube, ya que estas GPU no son activos que solo generan dinero una vez que las compra; también cuestan. Cuestan energía (los precios de la electricidad están subiendo), cuestan en refrigeración y cuestan en mantenimiento.
4. La inferencia con modelos de pensamiento y razonamiento ha cambiado drásticamente. Ahora, un modelo más pequeño y de menor rendimiento en términos de parámetros puede funcionar mejor que un modelo más grande, si le da más cómputo en el lado de la inferencia "para pensar". La computación de inferencia también es un nuevo paradigma de escalado. Lo que eso significa es que la diferencia si ejecuta la inferencia en un H100, un B300 o un B200 es enorme. También estamos moviendo el mercado de las cargas de trabajo de entrenamiento a la inferencia. Con el entrenamiento, la métrica más importante de los laboratorios de investigación de IA era el rendimiento y la velocidad a la que podían entrenar nuevos modelos. Como ahora estamos entrando en la era de la inferencia, la métrica más importante son los costos, por lo que si el B300 le da 10x-30x la cantidad de tokens por los mismos costos que una GPU más antigua, la reemplazará, ya que desea servir a tantos clientes como pueda y desea obtener alguna ganancia. Según informes recientes, OAI está perdiendo $ 3 por cada $ 1 que gana. Esto no durará para siempre, y una de las cosas más importantes para cambiar es ejecutar inferencias en las nuevas y eficientes GPU / aceleradores.
Populares
Ranking
Favoritas