鉴于测试时计算和后训练强化学习的重要性巨大且日益增加,Grok-4的绝对主导地位使得成为低成本代币生产者比以往任何时候都更为重要。顺便提一下,这是我作为科技投资者职业生涯中第一次低成本生产任何东西变得如此重要。 今天,代币的最低成本生产者是谷歌(TPU)和xAI(最大的连贯集群,最低的每个部署GPU的资本支出,几乎肯定是最高的MFU,并且做出了一些非常聪明的架构决策)。在xAI方面,我显然有偏见。 从纯技术的角度来看,拥有最佳的扩展网络和最有效的KV缓存卸载对日益庞大的模型和上下文窗口的成本和延迟最为重要。这些是今天AI基础设施竞争中最重要的竞争轴线——而不是计算。请注意,当你可以将模型放在单个芯片上(@cerebras)时,封装内存带宽是最重要的,但对于任何需要多个封装的真正大型模型,扩展和KV缓存卸载是最重要的。正如所有从事ASIC工作的人慢慢开始理解的那样。 这就是为什么Dynamo和开源NVLink都既重要又聪明。后者可能会越来越导致ASIC份额向NVLink合作伙伴迁移。更不用说拥有第二个供应商的自然谈判优势。IMHO,可能会看到更多这样的情况:
97.59K