Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers kirjasi uudelleen
Esittelyssä DeepConf: Deep Think with Confidence
🚀 Ensimmäinen tapa saavuttaa 99.9 % AIME 2025:ssä avoimen lähdekoodin malleilla! Käyttämällä GPT-OSS-120B:tä jopa ilman työkaluja saavutimme tämän lähes täydellisen tarkkuuden ja säästimme jopa 85 % luoduista tokeneista.
Se tarjoaa myös monia vahvoja etuja rinnakkaisajatteluun:
🔥 Suorituskyvyn parannus: ~10 %:n tarkkuus malleissa ja tietojoukoissa
⚡ Erittäin tehokas: Jopa 85 % vähemmän tokeneita
🔧 Plug & play: Toimii MINKÄ tahansa olemassa olevan mallin kanssa - koulutusta ei tarvita (ei myöskään hyperparametrien viritystä!)
⭐ Helppo ottaa käyttöön: Vain ~50 riviä koodia vLLM:ssä (katso PR alla)
📚 Paperi:
🌐 Projekti:
Yhteistyö: @FuYichao123 , xuewei_wang, @tydsh
(katso yksityiskohdat alla olevista kommenteista)
408,73K
Tim Dettmers kirjasi uudelleen
Voimmeko rikkoa LLM-päättelyn muistiseinän KV-välimuistin uudelleenmaterialisoinnin kautta?
🚨 Esittelyssä XQuant, joka hyödyntää alihyödynnettyjä laskentayksiköitä LLM-päättelyn muistin pullonkaulan poistamiseksi!
• 10–12,5-kertainen muistinsäästö verrattuna FP16:een
• Lähes nollan tarkkuuden menetys
• Päihittää huippuluokan KV-kvantisoinnin🔥
Keskeiset oivallukset:
1. KV-välimuisti = pullonkaula → kasvaa lineaarisesti kontekstin pituuden + erän koon mukaan.
2. Laskenta>> muisti → GPU:t tarjoavat FLOP:t suuruusluokkaa nopeampia kuin muistin kaistanleveys.
3. Keskeinen ajatus → älä tallenna KV:ta, vaan laske se uudelleen. 🧠
Koska LLM-päättely on tyypillisesti muistin kaistanleveyteen sidottu, laskentayksiköt ovat usein käyttämättömänä ja vajaakäytössä. Joten voimme käyttää tätä käytettävissä olevaa laskentaa ilman yleiskustannuksia!
GPU-laitteistotrendit osoittavat, että laskentaominaisuudet skaalautuvat paljon nopeammin kuin muistin kaistanleveys. Näin ollen muistitoimintojen vähentäminen vastineeksi lisälaskennasta voi nopeuttaa LLM-päättelyä. KV-välimuisti kasvaa lineaarisesti sekvenssin pituuden ja erän koon mukaan, mikä aiheuttaa suurimman osan muistitoiminnoista LLM-päättelyn aikana. Jos voimme vaihtaa lisälaskelmia kiertääksemme KV-välimuistin lataamisen ja tallentamisen, voimme nopeuttaa päättelyä!
XQuant hyödyntää tätä laitteistotrendiä: 🧵 [1/7]
Paperi:
Yhteistyö: @coleman_hooper1 @mjlee_official @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K
Johtavat
Rankkaus
Suosikit