Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Rihard Jarc
Investeerder & schrijver bij UncoverAlpha. Tweets zijn slechts meningen. Onderzoek en het delen van de bevindingen van de technologiesector in detail (+14k abonnees).
Een interessante opmerking van een voormalige $GOOGL-werknemer:
- De echte uitmuntendheid van TPU's komt niet van de chips zelf, maar van de software en het ecosysteem dat $GOOGL heeft geoptimaliseerd voor de TPU.
Je zou een vergelijkbaar argument voor $NVDA kunnen maken.
gevonden op @AlphaSenseInc

30,37K
Mijn visie op GPU's die een echte levensduur van 1-2 jaar hebben in plaats van +4 jaar roept veel vragen op, dus laat me dit in meer detail uitleggen:
Ten eerste zijn alle tegenargumenten als volgt: "maar H100, A100 worden nog steeds gebruikt en ze zijn 3-5 jaar oud", "klanten zullen oude GPU's gebruiken voor inferentieworkloads", "grote technologiebedrijven gebruiken oude GPU's voor interne workloads"
Hier is waarom dit de verkeerde denkwijze is:
1. Mensen vergeten dat $NVDA in 2024 naar een productcyclus van 1 jaar is gegaan (niet eerder!), dus Blackwell is nog steeds het product van een productcyclus van 2 jaar. Voor Blackwell was Hopper -H100, H200 het product, en daarvoor was de A100 het product. Dus allereerst is de H100 geen 3 jaar oud product; het is een 1 jaar oud product in termen van productcyclus (net na Blackwell). Nvidia begon ook serieus met het verzenden van de H100 aan het begin van 2023. Voortaan krijgen we elk jaar een nieuw product dat aanzienlijk beter presteert (10x-30x) en efficiënter is dan de vorige generatie, dus niet elke 2 jaar maar elk jaar.
2. We maken de overgang van een wereld waarin elke extra GPU/versnellerimplementatie incrementeel is naar een wereld waarin de meeste implementaties vervangingen zijn (niet incrementeel), omdat we beperkt zijn. We zijn beperkt door stroom en beschikbare datacenters. Dus, natuurlijk, wanneer je een overvloed aan datacenter ruimte en stroom hebt, ga je ook de "oude" GPU's gebruiken, omdat je genoeg ruimte hebt om ze te implementeren. Maar zodra je die implementatieruimte opraken en beperkt bent, is je beperkende factor stroom, en dus kijk je naar hoeveel tokens je genereert per watt die je hebt. Als de nieuwe generatie GPU's je 10x de tokens/watt geeft dan de vorige, als je wilt groeien en meer klanten wilt bedienen, moet je het vervangen door de nieuwe generatie, en je kunt de "oude" GPU niet "gebruiken", omdat je geen plek hebt om het te implementeren. Nogmaals, het punt om te begrijpen is dat we van GPU-schaars naar POWER-schaars gaan, en dit verandert de zaken.
3. Om een beeld te schetsen van "oh, maar de oude GPU's zullen worden gebruikt voor interne workloads" is verkeerd. Er zijn maar een handvol bedrijven die de luxe hebben om hun eigen cloudbedrijf te hebben, plus ook een groot consumenten- of bedrijfsbedrijf, dat enkele van deze oudere GPU's kan opnemen (nogmaals, zelfs deze gebruiksscenario's zullen drastisch worden verminderd naarmate we de fase ingaan die in argument 2 wordt beschreven). De cloudproviders zullen niet genoeg vraag en goede marges hebben om de "oude" generatie GPU's voor cloudklanten te draaien, aangezien deze GPU's geen activa zijn die alleen geld verdienen zodra je ze koopt; ze kosten ook. Ze kosten stroom (de elektriciteitsprijzen stijgen), ze kosten in koeling, en ze kosten in onderhoud.
4. Inferentie met denk- en redeneer modellen is drastisch veranderd. Nu kan een kleiner, minder performant model in termen van parameters beter presteren dan een groter model, als je het meer rekencapaciteit geeft aan de inferentiekant "om te denken". Inferentiecomputing is ook een nieuw schaalparadigma. Wat dat betekent is dat het verschil als je inferentie draait op een H100, of een B300, of een B200 enorm is. We verplaatsen de markt ook van trainingsworkloads naar inferentie. Bij training was de belangrijkste maatstaf voor de AI-onderzoekslaboratoria de prestaties en de snelheid waarmee ze nieuwe modellen konden trainen. Aangezien we nu het inferentietijdperk ingaan, is de belangrijkste maatstaf de kosten, dus als de B300 je 10x-30x het aantal tokens voor dezelfde kosten als een oudere GPU geeft, zul je het vervangen, omdat je zoveel mogelijk klanten wilt bedienen, en je wilt wat winst maken. Volgens recente rapporten verliest OAI $3 voor elke $1 die het verdient. Dit zal niet voor altijd zo blijven, en een van de belangrijkste dingen die moeten veranderen is om inferentie uit te voeren op de nieuwe en efficiënte GPU's/versnellers.
332,62K
De TPUs van $GOOGL zullen op de lange termijn waarschijnlijk een van hun beste investeringen in de geschiedenis blijken te zijn.
- $GOOGL verwerkt meer dan 1,3 quadriljoen tokens per maand
- OpenAI's API verwerkt 260 triljoen per maand
$GOOGL met AI-overzichten en Gemini laat je al zien hoe kosteneffectief je GenAI kunt draaien met de hulp van TPUs op enorme schaal.
106,58K
Boven
Positie
Favorieten