Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Rihard Jarc
Investor a spisovatel ve společnosti UncoverAlpha. Tweety jsou pouze názory. Detailní výzkum a sdílení poznatků z technologického sektoru (+14 tisíc odběratelů).
Můj názor na to, že GPU mají skutečnou užitečnost 1-2 roky místo +4 let, otevírá mnoho otázek, takže mi dovolte vysvětlit to podrobněji:
Za prvé, všechny protiargumenty jsou následující "ale H100, A100 se stále používají a jsou 3-5 let staré", "zákazníci budou používat staré GPU pro inferenční úlohy", "velké technologie používají staré GPU pro interní pracovní zátěže"
Zde je důvod, proč je to nesprávné myšlení:
1. Lidé zapomínají, že $NVDA v roce 2024 přešel na 1letý produktový cyklus (ne dříve!), takže Blackwell je stále produktem 2letého produktového cyklu. Před Blackwell Hopper -H100 byl produktem H200 a předtím byl produktem A100. Za prvé, H100 není 3 roky starý produkt; z hlediska produktového cyklu se jedná o 1 rok starý produkt (hned po Blackwell). Nvidia také začala na začátku roku 2023 dodávat H100 s vážnými objemy. Ode dneška budeme každý rok dostávat nový produkt, který bude výrazně výkonnější (10x-30x) a efektivnější než předchozí generace, takže ne každé 2 roky, ale každý rok.
2. Přecházíme ze světa, kde je každé další nasazení GPU/akcelerátoru přírůstkové, do světa, kde je většina nasazení nahrazena (nikoli přírůstková), protože jsme omezeni. Jsme omezeni výkonem a dostupnými datovými centry. Takže, samozřejmě, když máte dostatek prostoru a výkonu datového centra, budete také používat "staré" GPU, protože máte dostatek prostoru pro jejich nasazení. Jakmile vám ale tento prostor pro nasazení dojde a jste omezeni, vaším limitujícím faktorem je výkon, a tak hledáte, kolik tokenů vygenerujete na jeden watt, který máte. Pokud vám nová generace GPU dává 10x více tokenů/watt než ta předchozí, pokud chcete růst a obsluhovat více klientů, budete ji muset nahradit novou generací a nemůžete "používat" "starý" GPU, protože ho nemáte kam nasadit. Opět je třeba pochopit, že se přesouváme od nedostatku GPU k nedostatku energie, a to věci mění.
3. Vykreslit obrázek "ach, ale staré GPU budou použity pro interní pracovní zátěž" je špatné. Existuje jen hrstka společností, které si mohou dovolit luxus mít svůj vlastní cloudový byznys a navíc mít velký spotřebitelský nebo podnikový podnik, který může převzít některé z těchto starších GPU (opět, i tyto případy použití budou drasticky sníženy, jakmile vstoupíme do fáze popsané v argumentu 2). Poskytovatelé cloudu nebudou mít dostatečnou poptávku a dobré marže, aby provozovali "starou" generaci GPU pro cloudové zákazníky, protože tyto GPU nejsou aktiva, která jen vydělávají peníze, jakmile si je koupíte; také stojí. Stojí energii (ceny elektřiny rostou), stojí za chlazení a stojí za údržbu.
4. Usuzování s modely myšlení a uvažování se drasticky změnilo. Menší, méně výkonný model z hlediska parametrů může fungovat lépe než větší model, pokud mu dáte více výpočtů na straně inference "myslet". Inferenční výpočty jsou také novým paradigmatem škálování. To znamená, že rozdíl, zda spustíte inferenci na H100, B300 nebo B200, je obrovský. Posouváme také trh od tréninkových úloh k inferenci. Při školení byl nejdůležitějším měřítkem výzkumných laboratoří umělé inteligence výkon a rychlost, s jakou mohly trénovat nové modely. Protože nyní vstupujeme do éry inference, nejdůležitější metrikou jsou náklady, takže pokud vám B300 poskytne 10x-30x více tokenů za stejné náklady jako starší GPU, vyměníte jej, protože chcete obsloužit co nejvíce klientů a chcete vydělat nějaký zisk. Podle nedávných zpráv OAI ztrácí 3 $ za každý 1 $, který vydělá. To nebude trvat věčně a jednou z nejdůležitějších věcí, které je třeba změnit, je spustit inferenci na nových a efektivních GPU/akcelerátorech.
332,63K
TPU společnosti $GOOGL se v dlouhodobém horizontu pravděpodobně ukáží jako jedna z jejich nejlepších investic v historii.
- $GOOGL zpracuje více než 1,3 biliardy tokenů za měsíc
- API OpenAI zpracuje 260 bilionů za měsíc
$GOOGL s přehledy AI a Gemini vám již ukazuje, jak nákladově / efektivně můžete provozovat GenAI s pomocí TPU v obrovském měřítku.
106,59K
Top
Hodnocení
Oblíbené