Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers lagt ut på nytt
Vi introduserer DeepConf: Tenk dypt med selvtillit
🚀 Første metode for å oppnå 99.9 % på AIME 2025 med åpen kildekode-modeller! Ved å bruke GPT-OSS-120B selv uten verktøy, nådde vi denne nesten perfekte nøyaktigheten samtidig som vi sparte opptil 85 % genererte tokens.
Det gir også mange sterke fordeler for parallell tenkning:
🔥 Ytelsesøkning: ~10 % nøyaktighet på tvers av modeller og datasett
⚡ Ultraeffektiv: Opptil 85 % færre tokens generert
🔧 Plug & play: Fungerer med ALLE eksisterende modeller - null trening nødvendig (ingen hyperparameterjustering også!)
⭐ Enkel å distribuere: Bare ~50 linjer med kode i vLLM (se PR nedenfor)
📚 Papir:
🌐 Prosjekt:
Felles arbeid med: @FuYichao123, xuewei_wang, @tydsh
(se detaljer i kommentarene nedenfor)
408,63K
Tim Dettmers lagt ut på nytt
Kan vi bryte minneveggen for LLM-inferens via KV-cache-rematerialisering?
🚨 Vi introduserer XQuant, som utnytter underutnyttede databehandlingsenheter for å eliminere minneflaskehalsen for LLM-slutning!
• 10–12,5x minnebesparelser sammenlignet med FP16
• Nesten null tap av nøyaktighet
• Slår toppmoderne KV-kvantisering🔥
Viktig innsikt:
1. KV-cache = flaskehals → vokser lineært med kontekstlengde + batchstørrelse.
2. Beregn >> minne → GPUer tilbyr FLOP-er størrelsesordener raskere enn minnebåndbredde.
3. Nøkkelidé → ikke lagre KV, bare beregne det på nytt. 🧠
Siden LLM-slutning vanligvis er bundet til minnebåndbredde, er databehandlingsenheter ofte inaktive og underutnyttede. Så vi kan bruke denne tilgjengelige databehandlingen uten overhead!
GPU-maskinvaretrender viser at databehandlingsfunksjoner skaleres mye raskere enn minnebåndbredde. Dermed kan reduksjon av minneoperasjoner i bytte mot mer beregning bidra til å øke hastigheten på LLM-slutningen. KV-cachen vokser lineært med sekvenslengde og batchstørrelse, og pådrar seg de fleste minneoperasjoner under LLM-slutning. Hvis vi kan handle ytterligere beregninger for å omgå lasting og lagring av KV-cachen, kan vi akselerere slutningen!
XQuant utnytter denne maskinvaretrenden: 🧵 [1/7]
Papir:
Samarbeid med: @coleman_hooper1 @mjlee_official fra @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang fra @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,41K
Etter mitt syn er SWE-bench og T-bench de få benchmarkene som har et godt signal når det gjelder hvor mye fremgang vi gjør med modeller. Denne modellen yter like bra som Qwen3-koder og er bare 10 % dårligere enn GPT-5, samtidig som den er en generell LLM i stedet for kodespesialisert.

Z.ai11. aug., 11:43
Presenterer den tekniske rapporten for GLM-4.5! 👇
Dette arbeidet viser hvordan vi utviklet modeller som utmerker seg ved resonnement, koding og agentiske oppgaver gjennom et unikt treningsparadigme i flere trinn.
Viktige innovasjoner inkluderer iterasjon av ekspertmodeller med selvdestillasjon for å forene evner, en hybrid resonneringsmodus for dynamisk problemløsning og en vanskelighetsbasert læreplan for forsterkende læring.

28,6K
Det ser ut til at landskapet med lukket kildekode vs åpen vekt har blitt jevnet ut. GPT-5 er bare 10 % bedre til å kode enn en åpen vektmodell du kan kjøre på en stasjonær forbruker og snart bærbar PC. Hvis Anthropic ikke kan komme opp med en god modell, så vil vi sannsynligvis ikke se AGI på en stund.
66,92K
Tim Dettmers lagt ut på nytt
Dusj av tanker: I stedet for å beholde Twitter/X-utbetalingen din, rett den mot en "PayoutChallenge" etter eget valg - alt du vil ha mer av i verden!
Her er min for denne runden, som kombinerer mine siste 3 utbetalinger på $5478.51:
Det er viktig at menneskeheten ikke faller mens AI stiger opp. Menneskeheten må fortsette å heve seg, bli bedre ved siden av. Lag noe som er spesielt designet for å løfte teammennesket. Definisjonen ble med vilje litt vag for å holde litt entropi rundt folks tolkning, men imo-eksempler inkluderer:
- Enhver programvare som hjelper til med forklaring, visualisering, memorering, inspirasjon, forståelse, koordinasjon, etc...
- Det trenger ikke være for høyt, for eksempel kan det være en spesifikk pedagogisk artikkel/video som forklarer noe noen andre kan ha nytte av eller som du har unik kunnskap om.
- Forespørsler/agenter for forklaring, for eksempel i tråd med nylig utgitt ChatGPT-studiemodus.
- Beslektede kunstverk
Denne utfordringen vil pågå i 2 uker frem til 17. Send inn bidraget ditt som svar. Det må være noe som ble unikt skapt for denne utfordringen og ellers ikke ville eksistert. Kriteriene inkluderer utførelse, innflytelse, nyhet, inspirasjon, estetikk, underholdning. Folk kan stemme opp bidrag ved å like, dette "folkets valg" vil også være en faktor. Jeg vil avgjøre vinneren 17 august og sende $ 5478.51 :)
677,04K
Tim Dettmers lagt ut på nytt
Vi kunngjør vårt tidlige arbeid med FP4-slutning for LLM-er!
- QuTLASS: kjernestøtte med lav presisjon for Blackwell GPUer
- FP-Quant: en fleksibel kvantiseringssele for lama / Qwen
Vi når 4x speedup vs BF16, med god nøyaktighet gjennom MXFP4 mikroskalering + smeltede Hadamard-rotasjoner.


22,6K
Tim Dettmers lagt ut på nytt
Tokenisering er bare et spesielt tilfelle av "chunking" - å bygge data på lavt nivå til abstraksjoner på høyt nivå - som igjen er grunnleggende for intelligens.
Vår nye arkitektur, som muliggjør hierarkisk *dynamisk chunking*, er ikke bare tokeniseringsfri, men skalerer rett og slett bedre.

194,77K
Tim Dettmers lagt ut på nytt
Det største datasettet med menneskelig skrevet GPU-kode med åpen kildekode? 👀 JA takk! Vi i @GPU_MODE har gitt ut rundt 40k 🚀 menneskelige skrevne kodeprøver som spenner over Triton, Hip og PyTorch, og alt er åpent på @huggingface Hub. Tren den nye GPT for å gjøre GPT-er raskere ⚡️
Lenke nedenfor ⬇️
28,89K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til