Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La mia opinione sulle GPU che hanno una reale utilità di 1-2 anni invece di +4 anni solleva molte domande, quindi lasciatemi spiegare in modo più dettagliato:
Innanzitutto, tutti gli argomenti contrari sono i seguenti: "ma H100, A100 sono ancora in uso e hanno 3-5 anni", "i clienti utilizzeranno GPU vecchie per carichi di lavoro di inferenza", "le grandi aziende tecnologiche stanno utilizzando GPU vecchie per carichi di lavoro interni".
Ecco perché questo è un modo di pensare sbagliato:
1. La gente dimentica che $NVDA è passata a un ciclo di prodotto di 1 anno nel 2024 (non prima!), quindi Blackwell è ancora il prodotto di un ciclo di prodotto di 2 anni. Prima di Blackwell, il prodotto era Hopper -H100, H200, e prima ancora, il prodotto era l'A100. Quindi, prima di tutto, l'H100 non è un prodotto di 3 anni; è un prodotto di 1 anno in termini di ciclo di prodotto (subito dopo Blackwell). Nvidia ha anche iniziato a spedire l'H100 con volumi significativi all'inizio del 2023. Andando avanti da oggi, ogni anno avremo un nuovo prodotto che sarà significativamente più performante (10x-30x) ed efficiente rispetto alla generazione precedente, quindi non ogni 2 anni, ma ogni anno.
2. Stiamo passando da un mondo in cui ogni ulteriore distribuzione di GPU/acceleratore è incrementale a un mondo in cui la maggior parte delle distribuzioni è sostituzione (non incrementale), poiché siamo limitati. Siamo limitati dalla potenza e dai data center disponibili. Quindi, ovviamente, quando hai un'abbondanza di spazio nei data center e potenza, utilizzerai anche le GPU "vecchie", poiché hai abbastanza spazio per distribuirle. Ma una volta che esaurisci quello spazio di distribuzione e sei limitato, il tuo fattore limitante è la potenza, e quindi stai cercando di capire quanti token generi per watt che hai. Se la nuova generazione di GPU ti offre 10 volte i token/watt rispetto alla precedente, se vuoi crescere e servire più clienti, dovrai sostituirla con la nuova generazione, e non puoi "usare" la GPU "vecchia", poiché non hai alcun posto dove distribuirla. Ancora una volta, la cosa da capire è che stiamo passando da una scarsità di GPU a una scarsità di POTENZA, e questo cambia le cose.
3. Dipingere un quadro di "oh, ma le GPU vecchie saranno utilizzate per carichi di lavoro interni" è sbagliato. Ci sono solo un pugno di aziende che hanno il lusso di avere la propria attività cloud, oltre ad avere anche una grande attività consumer o enterprise, che può assumere alcune di queste GPU più vecchie (ancora una volta, anche questi casi d'uso saranno drasticamente ridotti man mano che entriamo nella fase descritta nel punto 2). I fornitori di cloud non avranno abbastanza domanda e buoni margini per gestire la generazione "vecchia" di GPU per i clienti cloud, poiché queste GPU non sono beni che fanno soldi solo una volta acquistati; costano anche. Costano energia (i prezzi dell'elettricità stanno aumentando), costano in raffreddamento e costano in manutenzione.
4. L'inferenza con modelli di pensiero e ragionamento è cambiata drasticamente. Ora, un modello più piccolo e meno performante in termini di parametri può funzionare meglio di un modello più grande, se gli dai più potenza di calcolo sul lato dell'inferenza "per pensare". Il calcolo dell'inferenza è anche un nuovo paradigma di scalabilità. Ciò significa che la differenza se esegui l'inferenza su un H100, o un B300, o un B200 è enorme. Stiamo anche spostando il mercato dai carichi di lavoro di addestramento all'inferenza. Con l'addestramento, il metrica più importante per i laboratori di ricerca AI era la performance e la velocità con cui potevano addestrare nuovi modelli. Poiché ora stiamo entrando nell'era dell'inferenza, la metrica più importante sono i costi, quindi se il B300 ti offre 10x-30x la quantità di token per gli stessi costi di una GPU più vecchia, la sostituirai, poiché vuoi servire quanti più clienti possibile e vuoi guadagnare un profitto. Secondo rapporti recenti, OAI sta perdendo $3 per ogni $1 guadagnato. Questo non durerà per sempre, e una delle cose più importanti da cambiare è eseguire l'inferenza sulle nuove e efficienti GPU/acceleratori.
Principali
Ranking
Preferiti