Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Känner att jag tar galna piller.
Vi är bara tillbaka vid steg ett.
Lagra inte KV-cache, bara kompilera om den.

20 aug. 14:07
Kan vi bryta minnesväggen för LLM-inferens via KV-cachematerialisering?
🚨 Vi presenterar XQuant, som utnyttjar underutnyttjade beräkningsenheter för att eliminera minnesflaskhalsen för LLM-inferens!
• 10–12,5x minnesbesparing jämfört med FP16
• Förlust av noggrannhet nära noll
• Slår toppmodern KV-kvantisering🔥
Viktiga insikter:
1. KV-cache = flaskhals → växer linjärt med kontextlängd + batchstorlek.
2. Beräknings- >> minne → GPU:er erbjuder FLOP:er storleksordningar snabbare än minnesbandbredd.
3. Nyckelidé: → inte lagrar KV, bara beräknar om det. 🧠
Eftersom LLM-inferens vanligtvis är minnesbandbreddsbunden är beräkningsenheter ofta inaktiva och underutnyttjade. Så vi kan använda den här tillgängliga beräkningen utan omkostnader!
Trender för GPU-maskinvara visar att beräkningsfunktioner skalas mycket snabbare än minnesbandbredden. Att minska minnesoperationer i utbyte mot mer beräkning kan alltså bidra till att påskynda LLM-inferens. KV-cachen växer linjärt med sekvenslängd och batchstorlek, vilket medför de flesta minnesåtgärder under LLM-inferens. Om vi kan handla med ytterligare beräkningar för att kringgå laddning och lagring av KV-cachen kan vi påskynda slutsatsen!
XQuant utnyttjar denna hårdvarutrend: 🧵 [1/7]
Papper:
Samarbete med: @coleman_hooper1 @mjlee_official från @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang från @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

94,75K
Topp
Rankning
Favoriter