Känner att jag tar galna piller. Vi är bara tillbaka vid steg ett. Lagra inte KV-cache, bara kompilera om den.
Aditya Tomar
Aditya Tomar20 aug. 14:07
Kan vi bryta minnesväggen för LLM-inferens via KV-cachematerialisering? 🚨 Vi presenterar XQuant, som utnyttjar underutnyttjade beräkningsenheter för att eliminera minnesflaskhalsen för LLM-inferens! • 10–12,5x minnesbesparing jämfört med FP16 • Förlust av noggrannhet nära noll • Slår toppmodern KV-kvantisering🔥 Viktiga insikter: 1. KV-cache = flaskhals → växer linjärt med kontextlängd + batchstorlek. 2. Beräknings- >> minne → GPU:er erbjuder FLOP:er storleksordningar snabbare än minnesbandbredd. 3. Nyckelidé: → inte lagrar KV, bara beräknar om det. 🧠 Eftersom LLM-inferens vanligtvis är minnesbandbreddsbunden är beräkningsenheter ofta inaktiva och underutnyttjade. Så vi kan använda den här tillgängliga beräkningen utan omkostnader! Trender för GPU-maskinvara visar att beräkningsfunktioner skalas mycket snabbare än minnesbandbredden. Att minska minnesoperationer i utbyte mot mer beräkning kan alltså bidra till att påskynda LLM-inferens. KV-cachen växer linjärt med sekvenslängd och batchstorlek, vilket medför de flesta minnesåtgärder under LLM-inferens. Om vi kan handla med ytterligare beräkningar för att kringgå laddning och lagring av KV-cachen kan vi påskynda slutsatsen! XQuant utnyttjar denna hårdvarutrend: 🧵 [1/7] Papper: Samarbete med: @coleman_hooper1 @mjlee_official från @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang från @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami
94,75K