DApp Store | Web3 Hub voor evenementen en spelletjes | OKX Wallet

Verken Web3-giveaway voor meer spannende beloningen

background background

discoveryBanners

Populaire onderwerpen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+15,2%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Tim Dettmers

Tim Dettmers heeft opnieuw gepost

Sam Bowman

Sam Bowman20 uur geleden

Vroeg deze zomer hebben OpenAI en Anthropic afgesproken om enkele van onze beste bestaande tests voor misalignment op elkaars modellen uit te proberen. Na het privé bespreken van onze resultaten, delen we deze nu met de wereld. 🧵

73,75K

Tim Dettmers heeft opnieuw gepost

Jiawei Zhao

Jiawei Zhao23 aug, 04:00

Introductie van DeepConf: Diep Denken met Vertrouwen 🚀 De eerste methode om 99,9% te behalen op AIME 2025 met open-source modellen! Met GPT-OSS-120B, zelfs zonder tools, hebben we deze bijna perfecte nauwkeurigheid bereikt terwijl we tot 85% gegenereerde tokens bespaarden. Het biedt ook veel sterke voordelen voor parallel denken: 🔥 Prestatieverbetering: ~10% nauwkeurigheid over modellen & datasets ⚡ Ultra-efficiënt: Tot 85% minder gegenereerde tokens 🔧 Plug & play: Werkt met ELK bestaand model - geen training nodig (geen hyperparameter tuning ook!) ⭐ Gemakkelijk te implementeren: Slechts ~50 regels code in vLLM (zie PR hieronder) 📚 Paper: 🌐 Project: gezamenlijk werk met: @FuYichao123 , xuewei_wang, @tydsh (zie details in de opmerkingen hieronder)

408,73K

Tim Dettmers heeft opnieuw gepost

Aditya Tomar

Aditya Tomar20 aug, 14:07

Kunnen we de geheugenmuur doorbreken voor LLM-inferentie via KV-cache-rematerialisatie? 🚨 Introductie van XQuant, dat onderbenutte rekeneenheden benut om de geheugenflessenhals voor LLM-inferentie te elimineren! • 10–12,5x geheugenbesparing ten opzichte van FP16 • Bijna geen nauwkeurigheidsverlies • Overtreft de state-of-the-art KV-kwantisatie🔥 Belangrijke inzichten: 1. KV-cache = bottleneck → groeit lineair met contextlengte + batchgrootte. 2. Rekenen >> geheugen → GPU's bieden FLOPs die orders van grootte sneller zijn dan geheugenbandbreedte. 3. Sleutelidee → sla KV niet op, bereken het gewoon opnieuw. 🧠 Aangezien LLM-inferentie doorgaans beperkt is door geheugenbandbreedte, zijn rekeneenheden vaak inactief en onderbenut. Dus kunnen we deze beschikbare rekencapaciteit gebruiken zonder enige overhead! Trends in GPU-hardware tonen aan dat rekencapaciteiten veel sneller schalen dan geheugenbandbreedte. Het verminderen van geheugenbewerkingen in ruil voor meer berekeningen kan helpen om LLM-inferentie te versnellen. De KV-cache groeit lineair met de sequentielengte en batchgrootte, wat de meeste geheugenbewerkingen tijdens LLM-inferentie met zich meebrengt. Als we extra berekeningen kunnen inruilen om het laden en opslaan van de KV-cache te omzeilen, kunnen we de inferentie versnellen! XQuant benut deze hardwaretrend: 🧵 [1/7] Paper: Gezamenlijk werk met: @coleman_hooper1 @mjlee_official van @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang van @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K

Boven

Positie

Favorieten

©2017 - 2025 WEB3.OKX.COM

Nederlands 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)العربية 日本語 Norsk (bokmål)Suomi Svenska

Meer over OKX Web3

Downloaden Learn Over ons Vacatures Contact Servicevoorwaarden Privacyverklaring X (voorheen Twitter)

Product

Dashboard wallet Swap Marktplaats Earn Ontdekken Samenstellen Verkenner Beveiliging

Ondersteuning

Ondersteuningscentrum Kanaalverificatie Aankondigingen DEX fee schedule Contact met OKX Bitcoin-wallet Ethereum-wallet Solana-wallet