Putem sparge zidul de memorie pentru inferența LLM prin rematerializarea cache-ului KV? 🚨 Vă prezentăm XQuant, care folosește unitățile de calcul subutilizate pentru a elimina blocajul de memorie pentru inferența LLM! • Economii de memorie de 10-12,5 ori față de FP16 • Pierdere de precizie aproape zero • Bate cuantificarea KV de ultimă generație🔥 Informații cheie: 1. KV cache = blocaj → crește liniar cu lungimea contextului + dimensiunea lotului. 2. Calculați memoria >> → GPU-urile oferă FLOP-uri ordine de mărime mai rapide decât lățimea de bandă a memoriei. 3. Ideea cheie → nu stocați KV, ci doar recalculați-l. 🧠 Deoarece inferența LLM este de obicei legată de lățimea de bandă a memoriei, unitățile de calcul sunt adesea inactive și subutilizate. Deci, putem folosi acest calcul disponibil fără nicio supraîncărcare! Tendințele hardware GPU arată că capacitățile de calcul se scalează mult mai repede decât lățimea de bandă a memoriei. Astfel, reducerea operațiunilor de memorie în schimbul mai multor calcule poate ajuta la accelerarea inferenței LLM. Memoria cache KV crește liniar cu lungimea secvenței și dimensiunea lotului, suportând majoritatea operațiunilor de memorie în timpul inferenței LLM. Dacă putem schimba calcule suplimentare pentru a ocoli încărcarea și stocarea cache-ului KV, putem accelera inferența! XQuant exploatează această tendință hardware: 🧵 [1/7] Hârtie: Colaborare cu: @coleman_hooper1 @mjlee_official de la @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang de la @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami
32,43K