DApp Store | Web3 Hub tapahtumille ja peleille

Tutustu Web3 Giveawayhin saadaksesi jännittävämpiä palkkioita

Trendaavat aiheet

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

BOOP−0,47 %

Boopa+24,04 %

PORK−1,87 %

Tim Dettmers

Tim Dettmers kirjasi uudelleen

Sam Bowman22 tuntia sitten

Alkukesästä OpenAI ja Anthropic sopivat kokeilevansa parhaita olemassa olevia testejä toistensa mallien kohdistusvirheiden varalta. Keskusteltuamme tuloksistamme yksityisesti, jaamme ne nyt maailman kanssa. 🧵

79,43K

Tim Dettmers kirjasi uudelleen

Jiawei Zhao23.8. klo 04.00

Esittelyssä DeepConf: Deep Think with Confidence 🚀 Ensimmäinen tapa saavuttaa 99.9 % AIME 2025:ssä avoimen lähdekoodin malleilla! Käyttämällä GPT-OSS-120B:tä jopa ilman työkaluja saavutimme tämän lähes täydellisen tarkkuuden ja säästimme jopa 85 % luoduista tokeneista. Se tarjoaa myös monia vahvoja etuja rinnakkaisajatteluun: 🔥 Suorituskyvyn parannus: ~10 %:n tarkkuus malleissa ja tietojoukoissa ⚡ Erittäin tehokas: Jopa 85 % vähemmän tokeneita 🔧 Plug & play: Toimii MINKÄ tahansa olemassa olevan mallin kanssa - koulutusta ei tarvita (ei myöskään hyperparametrien viritystä!) ⭐ Helppo ottaa käyttöön: Vain ~50 riviä koodia vLLM:ssä (katso PR alla) 📚 Paperi: 🌐 Projekti: Yhteistyö: @FuYichao123 , xuewei_wang, @tydsh (katso yksityiskohdat alla olevista kommenteista)

408,73K

Tim Dettmers kirjasi uudelleen

Aditya Tomar20.8. klo 14.07

Voimmeko rikkoa LLM-päättelyn muistiseinän KV-välimuistin uudelleenmaterialisoinnin kautta? 🚨 Esittelyssä XQuant, joka hyödyntää alihyödynnettyjä laskentayksiköitä LLM-päättelyn muistin pullonkaulan poistamiseksi! • 10–12,5-kertainen muistinsäästö verrattuna FP16:een • Lähes nollan tarkkuuden menetys • Päihittää huippuluokan KV-kvantisoinnin🔥 Keskeiset oivallukset: 1. KV-välimuisti = pullonkaula → kasvaa lineaarisesti kontekstin pituuden + erän koon mukaan. 2. Laskenta>> muisti → GPU:t tarjoavat FLOP:t suuruusluokkaa nopeampia kuin muistin kaistanleveys. 3. Keskeinen ajatus → älä tallenna KV:ta, vaan laske se uudelleen. 🧠 Koska LLM-päättely on tyypillisesti muistin kaistanleveyteen sidottu, laskentayksiköt ovat usein käyttämättömänä ja vajaakäytössä. Joten voimme käyttää tätä käytettävissä olevaa laskentaa ilman yleiskustannuksia! GPU-laitteistotrendit osoittavat, että laskentaominaisuudet skaalautuvat paljon nopeammin kuin muistin kaistanleveys. Näin ollen muistitoimintojen vähentäminen vastineeksi lisälaskennasta voi nopeuttaa LLM-päättelyä. KV-välimuisti kasvaa lineaarisesti sekvenssin pituuden ja erän koon mukaan, mikä aiheuttaa suurimman osan muistitoiminnoista LLM-päättelyn aikana. Jos voimme vaihtaa lisälaskelmia kiertääksemme KV-välimuistin lataamisen ja tallentamisen, voimme nopeuttaa päättelyä! XQuant hyödyntää tätä laitteistotrendiä: 🧵 [1/7] Paperi: Yhteistyö: @coleman_hooper1 @mjlee_official @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami