Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers delade inlägget
Vi presenterar DeepConf: Deep Think with Confidence
🚀 Första metoden att uppnå 99,9% på AIME 2025 med modeller med öppen källkod! Genom att använda GPT-OSS-120B även utan verktyg uppnådde vi denna nästan perfekta noggrannhet samtidigt som vi sparade upp till 85 % genererade tokens.
Det ger också många starka fördelar för parallellt tänkande:
🔥 Prestandaökning: ~10 % noggrannhet i alla modeller och datauppsättningar
⚡ Ultraeffektiv: Upp till 85 % färre genererade tokens
🔧 Plug & play: Fungerar med ALLA befintliga modeller - ingen träning behövs (ingen justering av hyperparametrar också!)
⭐ Lätt att distribuera: Bara ~50 rader kod i vLLM (se PR nedan)
📚 Papper:
🌐 Projekt:
Gemensamt arbete med: @FuYichao123, xuewei_wang, @tydsh
(se detaljer i kommentarerna nedan)
408,74K
Tim Dettmers delade inlägget
Kan vi bryta minnesväggen för LLM-inferens via KV-cachematerialisering?
🚨 Vi presenterar XQuant, som utnyttjar underutnyttjade beräkningsenheter för att eliminera minnesflaskhalsen för LLM-inferens!
• 10–12,5x minnesbesparing jämfört med FP16
• Förlust av noggrannhet nära noll
• Slår toppmodern KV-kvantisering🔥
Viktiga insikter:
1. KV-cache = flaskhals → växer linjärt med kontextlängd + batchstorlek.
2. Beräknings- >> minne → GPU:er erbjuder FLOP:er storleksordningar snabbare än minnesbandbredd.
3. Nyckelidé: → inte lagrar KV, bara beräknar om det. 🧠
Eftersom LLM-inferens vanligtvis är minnesbandbreddsbunden är beräkningsenheter ofta inaktiva och underutnyttjade. Så vi kan använda den här tillgängliga beräkningen utan omkostnader!
Trender för GPU-maskinvara visar att beräkningsfunktioner skalas mycket snabbare än minnesbandbredden. Att minska minnesoperationer i utbyte mot mer beräkning kan alltså bidra till att påskynda LLM-inferens. KV-cachen växer linjärt med sekvenslängd och batchstorlek, vilket medför de flesta minnesåtgärder under LLM-inferens. Om vi kan handla med ytterligare beräkningar för att kringgå laddning och lagring av KV-cachen kan vi påskynda slutsatsen!
XQuant utnyttjar denna hårdvarutrend: 🧵 [1/7]
Papper:
Samarbete med: @coleman_hooper1 @mjlee_official från @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang från @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,45K
Topp
Rankning
Favoriter