Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dylan Patel
Semianalisi
Ricerca e consulenza su intelligenza artificiale e semiconduttori
I DM sono aperti per consulenze, preventivi o per parlare di lavoro
Sembra che stia prendendo pillole pazze.
Siamo tornati al punto di partenza.
Non memorizzare la cache KV, basta ricalcolarla.

Aditya Tomar20 ago, 14:07
Possiamo superare il muro della memoria per l'inferenza LLM tramite la rimaterializzazione della cache KV?
🚨 Presentiamo XQuant, che sfrutta unità di calcolo sottoutilizzate per eliminare il collo di bottiglia della memoria per l'inferenza LLM!
• Risparmi di memoria da 10 a 12,5 volte rispetto a FP16
• Perdita di precisione quasi zero
• Supera la quantizzazione KV all'avanguardia🔥
Principali intuizioni:
1. Cache KV = collo di bottiglia → cresce linearmente con la lunghezza del contesto + dimensione del batch.
2. Calcolo >> memoria → le GPU offrono FLOP ordini di grandezza più veloci rispetto alla larghezza di banda della memoria.
3. Idea chiave → non memorizzare KV, basta ricalcolarlo. 🧠
Poiché l'inferenza LLM è tipicamente limitata dalla larghezza di banda della memoria, le unità di calcolo sono spesso inattive e sottoutilizzate. Quindi, possiamo utilizzare questo calcolo disponibile senza alcun sovraccarico!
Le tendenze hardware delle GPU mostrano che le capacità di calcolo stanno scalando molto più velocemente della larghezza di banda della memoria. Pertanto, ridurre le operazioni di memoria in cambio di più calcolo può aiutare ad accelerare l'inferenza LLM. La cache KV cresce linearmente con la lunghezza della sequenza e la dimensione del batch, sostenendo la maggior parte delle operazioni di memoria durante l'inferenza LLM. Se possiamo scambiare calcolo aggiuntivo per evitare il caricamento e la memorizzazione della cache KV, possiamo accelerare l'inferenza!
XQuant sfrutta questa tendenza hardware: 🧵 [1/7]
Documento:
Lavoro congiunto con: @coleman_hooper1 @mjlee_official di @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang di @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

94,67K
Dylan Patel ha ripubblicato
Nuovo episodio del podcast: le opinioni di @dylan522p su NVIDIA, OpenAI, Intel, Meta, Apple e altro ancora.
(1:11) Reazioni a GPT-5
(7:34) L'economia dell'IA
(12:30) Consigli per Sam Altman
(14:18) La crescita di NVIDIA
(21:27) Minacce per NVIDIA
(26:09) Il boom delle startup nel settore dei silici
(45:28) Data Center
(57:56) Consigli per i giganti della tecnologia
(1:08:17) Politica dell'IA e controlli sulle esportazioni
280,21K
posso dire qualcosa senza che la gente si arrabbi?

sarah guo // conviction15 ago, 08:11
quando scambio note con @dylan522p di @SemiAnalysis_ imparo sempre qualcosa
nuovo @NoPriorsPod sui modelli di intelligenza artificiale open source, neocloud, poker, vincoli di potenza e cosa servirebbe per sfidare Nvidia
82,22K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari