Idag lanserar vi InferenceMAX! Vi har support från Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell Den körs varje dag på den senaste programvaran (vLLM, SGLang, etc) över hundratals GPU:er, $10 miljoner infrastruktur spinner varje dag för att skapa verkliga LLM-inferensriktmärken InferenceMAX svarar på vår tids stora frågor med AI Infrastructure. Hur många tokens genereras per MW kapacitet på olika infrastrukturer? Hur mycket kostar en miljon bloss? Vad är den verkliga avvägningen mellan svarstid och dataflöde? Vi har täckning för över 80 % av utplacerade FLOPS globalt genom att täcka H100, H200, B200, GB200, MI300X, MI325X och MI355X. Snart kommer vi att vara över 99% med Google TPU:er och Amazon Trainium som läggs till.
För att vara tydlig var detta ett enormt lyft från den tekniska personalen på SemiAnalysis. De är de lysande stjärnorna här. De gjorde något som jag tror kommer att omforma hur människor fattar beslut om att köpa infrastruktur. Ett stort tack också till Nvidia och AMD, och de konstruerar otaliga timmar av ansträngning.
13,41K