Gitt den enorme - og økende - betydningen av testtidsberegning og RL etter trening vist av Grok-4s absolutte dominans, er det viktigere enn noen gang å være lavkostprodusent av tokens. Som en sidebemerkning er dette første gang i min karriere som teknologiinvestor at det har betydd noe å være lavkostprodusent av noe. I dag er de laveste kostnadsprodusentene av tokens Google (TPUer) og xAI (største sammenhengende klynge, laveste capex $ per distribuert GPU, nesten helt sikkert høyeste MFU og har tatt noen virkelig smarte arkitektoniske beslutninger). Jeg er åpenbart partisk når det kommer til xAI. Fra et rent teknisk perspektiv er det å ha det beste oppskaleringsnettverket og den mest effektive KV-cache-avlastningen viktigst for både kostnad og ventetid for de stadig større modellene og kontekstvinduene. Dette er de viktigste konkurranseaksene innen AI-infrastruktur i dag – ikke databehandling. Merk at minnebåndbredde på pakken er viktigst når du kan få plass til modellen på en enkelt brikke (@cerebras), men for enhver virkelig stor modell som krever flere pakker, er oppskalering og kv-cache-avlasting viktigst. Som alle som jobber med ASIC-er sakte begynner å forstå. Derfor var Dynamo og NVLink med åpen kildekode både viktige og smarte. Sistnevnte kan i økende grad føre til at ASIC-aksjer migrerer til NVLink-partnere. For ikke å snakke om de naturlige forhandlingsfordelene ved å ha en annen leverandør. Sannsynligvis å se flere av disse IMHO:
97,55K