Учитывая огромную - и растущую - важность вычислений во время тестирования и постобучения RL, продемонстрированную абсолютным доминированием Grok-4, быть производителем токенов с низкими затратами важнее, чем когда-либо. Кстати, это первый раз в моей карьере как технологического инвестора, когда быть производителем чего-либо с низкими затратами имеет значение. Сегодня производителями токенов с наименьшими затратами являются Google (TPU) и xAI (самый крупный согласованный кластер, наименьшие капитальные затраты на развернутый GPU, почти наверняка самый высокий MFU и они приняли действительно умные архитектурные решения). Я, очевидно, предвзят, когда речь идет о xAI. С чисто технической точки зрения, наличие лучшей сетевой инфраструктуры для масштабирования и наиболее эффективной выгрузки KV-кэша имеет наибольшее значение как для затрат, так и для задержки для все более крупных моделей и контекстных окон. Это самые важные оси конкуренции в инфраструктуре ИИ сегодня - не вычисления. Обратите внимание, что пропускная способность памяти на упаковке имеет наибольшее значение, когда вы можете разместить модель на одном чипе (@cerebras), но для любой действительно крупной модели, требующей нескольких упаковок, масштабирование и выгрузка KV-кэша имеют наибольшее значение. Как все, работающие над ASIC, постепенно начинают понимать. Вот почему Dynamo и открытие NVLink были как важными, так и умными шагами. Последнее может привести к тому, что доля ASIC будет мигрировать к партнерам NVLink. Не говоря уже о естественных преимуществах в переговорах, имея второго поставщика. Вероятно, мы увидим больше таких шагов, на мой взгляд:
97,57K