Data l'enorme - e crescente - importanza del calcolo al momento del test e del RL post-addestramento mostrata dal dominio assoluto di Grok-4, essere il produttore a basso costo di token è più importante che mai. A proposito, questa è la prima volta nella mia carriera come investitore tecnologico che essere il produttore a basso costo di qualsiasi cosa ha avuto importanza. Oggi, i produttori a costo più basso di token sono Google (TPU) e xAI (il più grande cluster coerente, il più basso capex $ per GPU distribuita, quasi certamente il più alto MFU e hanno preso alcune decisioni architettoniche davvero intelligenti). Sono ovviamente di parte quando si tratta di xAI. Da una prospettiva puramente tecnica, avere la migliore rete di scalabilità e il più efficiente scarico della cache KV sono i più importanti sia per il costo che per la latenza per i modelli e le finestre di contesto sempre più grandi. Questi sono gli assi di competizione più importanti nell'infrastruttura AI oggi - non il calcolo. Nota che la larghezza di banda della memoria on-package è più importante quando puoi adattare il modello su un singolo chip (@cerebras) ma per qualsiasi modello davvero grande che richiede più pacchetti, la scalabilità e lo scarico della cache KV sono i più importanti. Come tutti coloro che lavorano su ASIC stanno lentamente iniziando a capire. Ecco perché Dynamo e l'open-sourcing di NVLink sono stati entrambi importanti e intelligenti. Quest'ultimo potrebbe portare sempre più a una migrazione della quota di ASIC verso i partner NVLink. Per non parlare dei benefici naturali nella negoziazione di avere un secondo fornitore. Probabilmente vedremo di più di questi IMHO:
97,62K