Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers heeft opnieuw gepost
Introductie van DeepConf: Diep Denken met Vertrouwen
🚀 De eerste methode om 99,9% te behalen op AIME 2025 met open-source modellen! Met GPT-OSS-120B, zelfs zonder tools, hebben we deze bijna perfecte nauwkeurigheid bereikt terwijl we tot 85% gegenereerde tokens bespaarden.
Het biedt ook veel sterke voordelen voor parallel denken:
🔥 Prestatieverbetering: ~10% nauwkeurigheid over modellen & datasets
⚡ Ultra-efficiënt: Tot 85% minder gegenereerde tokens
🔧 Plug & play: Werkt met ELK bestaand model - geen training nodig (geen hyperparameter tuning ook!)
⭐ Gemakkelijk te implementeren: Slechts ~50 regels code in vLLM (zie PR hieronder)
📚 Paper:
🌐 Project:
gezamenlijk werk met: @FuYichao123 , xuewei_wang, @tydsh
(zie details in de opmerkingen hieronder)
408,73K
Tim Dettmers heeft opnieuw gepost
Kunnen we de geheugenmuur doorbreken voor LLM-inferentie via KV-cache-rematerialisatie?
🚨 Introductie van XQuant, dat onderbenutte rekeneenheden benut om de geheugenflessenhals voor LLM-inferentie te elimineren!
• 10–12,5x geheugenbesparing ten opzichte van FP16
• Bijna geen nauwkeurigheidsverlies
• Overtreft de state-of-the-art KV-kwantisatie🔥
Belangrijke inzichten:
1. KV-cache = bottleneck → groeit lineair met contextlengte + batchgrootte.
2. Rekenen >> geheugen → GPU's bieden FLOPs die orders van grootte sneller zijn dan geheugenbandbreedte.
3. Sleutelidee → sla KV niet op, bereken het gewoon opnieuw. 🧠
Aangezien LLM-inferentie doorgaans beperkt is door geheugenbandbreedte, zijn rekeneenheden vaak inactief en onderbenut. Dus kunnen we deze beschikbare rekencapaciteit gebruiken zonder enige overhead!
Trends in GPU-hardware tonen aan dat rekencapaciteiten veel sneller schalen dan geheugenbandbreedte. Het verminderen van geheugenbewerkingen in ruil voor meer berekeningen kan helpen om LLM-inferentie te versnellen. De KV-cache groeit lineair met de sequentielengte en batchgrootte, wat de meeste geheugenbewerkingen tijdens LLM-inferentie met zich meebrengt. Als we extra berekeningen kunnen inruilen om het laden en opslaan van de KV-cache te omzeilen, kunnen we de inferentie versnellen!
XQuant benut deze hardwaretrend: 🧵 [1/7]
Paper:
Gezamenlijk werk met: @coleman_hooper1 @mjlee_official van @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang van @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K
Boven
Positie
Favorieten