Dada la enorme -y creciente- importancia de la computación en tiempo de prueba y el RL posterior al entrenamiento que muestra el dominio absoluto de Grok-4, ser el productor de tokens de bajo costo es más importante que nunca. Por otro lado, esta es la primera vez en mi carrera como inversor tecnológico que ser el productor de bajo costo de cualquier cosa ha importado. Hoy en día, los productores de tokens de menor costo son Google (TPU) y xAI (el clúster coherente más grande, el gasto de capital más bajo por GPU implementada, casi con certeza la MFU más alta y han tomado algunas decisiones arquitectónicas realmente inteligentes). Obviamente soy parcial cuando se trata de xAI. Desde una perspectiva exclusivamente técnica, tener la mejor red de escalado vertical y la descarga de caché KV más eficiente es lo más importante tanto para el costo como para la latencia de los modelos y ventanas de contexto cada vez más grandes. Estos son los ejes de competencia más importantes en la infraestructura de IA en la actualidad, no en la computación. Tenga en cuenta que el ancho de banda de la memoria en el paquete es más importante cuando puede caber el modelo en un solo chip (@cerebras), pero para cualquier modelo realmente grande que requiera varios paquetes, el escalado y la descarga de caché en kv son lo más importante. Como todos los que trabajan en ASIC están empezando a entender lentamente. Esta es la razón por la que Dynamo y NVLink de código abierto fueron importantes e inteligentes. Esto último podría llevar cada vez más a la migración de acciones de ASIC a los socios de NVLink. Por no hablar de los beneficios naturales de negociación de tener un segundo proveedor. En mi humilde opinión, es probable que veamos más de estos:
97.58K