Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers ha ripubblicato
Introducendo DeepConf: Pensa in Profondità con Fiducia
🚀 Primo metodo per raggiungere il 99,9% su AIME 2025 con modelli open-source! Utilizzando GPT-OSS-120B anche senza strumenti, abbiamo raggiunto questa precisione quasi perfetta risparmiando fino all'85% dei token generati.
Offre anche molti forti vantaggi per il pensiero parallelo:
🔥 Aumento delle prestazioni: ~10% di precisione su modelli e dataset
⚡ Ultra-efficiente: Fino all'85% in meno di token generati
🔧 Plug & play: Funziona con QUALSIASI modello esistente - nessun addestramento necessario (niente ottimizzazione degli iperparametri!)
⭐ Facile da implementare: Solo ~50 righe di codice in vLLM (vedi PR qui sotto)
📚 Documento:
🌐 Progetto:
lavoro congiunto con: @FuYichao123 , xuewei_wang, @tydsh
(vedi dettagli nei commenti qui sotto)
408,72K
Tim Dettmers ha ripubblicato
Possiamo superare il muro della memoria per l'inferenza LLM tramite la rimaterializzazione della cache KV?
🚨 Presentiamo XQuant, che sfrutta unità di calcolo sottoutilizzate per eliminare il collo di bottiglia della memoria per l'inferenza LLM!
• Risparmi di memoria da 10 a 12,5 volte rispetto a FP16
• Perdita di precisione quasi zero
• Supera la quantizzazione KV all'avanguardia🔥
Principali intuizioni:
1. Cache KV = collo di bottiglia → cresce linearmente con la lunghezza del contesto + dimensione del batch.
2. Calcolo >> memoria → le GPU offrono FLOP ordini di grandezza più veloci rispetto alla larghezza di banda della memoria.
3. Idea chiave → non memorizzare KV, basta ricalcolarlo. 🧠
Poiché l'inferenza LLM è tipicamente limitata dalla larghezza di banda della memoria, le unità di calcolo sono spesso inattive e sottoutilizzate. Quindi, possiamo utilizzare questo calcolo disponibile senza alcun sovraccarico!
Le tendenze hardware delle GPU mostrano che le capacità di calcolo stanno scalando molto più velocemente della larghezza di banda della memoria. Pertanto, ridurre le operazioni di memoria in cambio di più calcolo può aiutare ad accelerare l'inferenza LLM. La cache KV cresce linearmente con la lunghezza della sequenza e la dimensione del batch, sostenendo la maggior parte delle operazioni di memoria durante l'inferenza LLM. Se possiamo scambiare calcolo aggiuntivo per evitare il caricamento e la memorizzazione della cache KV, possiamo accelerare l'inferenza!
XQuant sfrutta questa tendenza hardware: 🧵 [1/7]
Documento:
Lavoro congiunto con: @coleman_hooper1 @mjlee_official di @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang di @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K
A mio avviso, SWE-bench e T-bench sono i pochi benchmark che hanno un buon segnale in termini di quanto progresso facciamo con i modelli. Questo modello si comporta altrettanto bene quanto Qwen3 Coder ed è solo il 10% peggiore di GPT-5, pur essendo un LLM di uso generale piuttosto che specializzato nel codice.

Z.ai11 ago, 11:43
Presentazione del rapporto tecnico GLM-4.5!👇
Questo lavoro dimostra come abbiamo sviluppato modelli che eccellono nel ragionamento, nella codifica e nei compiti agentici attraverso un paradigma di formazione unico e multi-fase.
Le principali innovazioni includono l'iterazione del modello esperto con auto-distillazione per unificare le capacità, una modalità di ragionamento ibrida per la risoluzione dinamica dei problemi e un curriculum di apprendimento rinforzato basato sulla difficoltà.

28,63K
Sembra che il panorama tra codice sorgente chiuso e pesi aperti sia stato livellato. GPT-5 è solo il 10% migliore nella programmazione rispetto a un modello con pesi aperti che puoi eseguire su un desktop consumer e presto anche su un laptop. Se Anthropic non riesce a sviluppare un buon modello, probabilmente non vedremo AGI per un po'.
67,24K
Tim Dettmers ha ripubblicato
Doccia di pensieri: Invece di tenere il tuo pagamento di Twitter/𝕏, indirizzalo verso una "PayoutChallenge" a tua scelta - qualsiasi cosa tu voglia di più nel mondo!
Ecco la mia per questo turno, combinando i miei ultimi 3 pagamenti di $5478.51:
È imperativo che l'umanità non cada mentre l'IA ascende. L'umanità deve continuare a elevarsi, a diventare migliore insieme. Crea qualcosa che sia specificamente progettato per sollevare il team umano. La definizione è intenzionalmente lasciata un po' vaga per mantenere un po' di entropia nell'interpretazione delle persone, ma secondo me gli esempi includono:
- Qualsiasi pezzo di software che aiuti spiegazione, visualizzazione, memorizzazione, ispirazione, comprensione, coordinazione, ecc...
- Non deve essere troppo ambizioso, ad esempio può essere un articolo/video educativo specifico che spiega qualcosa da cui altre persone potrebbero trarre beneficio o di cui hai conoscenze uniche.
- Prompts/agenti per spiegazione, ad esempio lungo le linee della modalità studio di ChatGPT recentemente rilasciata.
- Opere d'arte correlate
Questa sfida durerà per 2 settimane fino al 17 agosto EOD PST. Invia il tuo contributo come risposta. Deve essere qualcosa che è stato creato unicamente per questa sfida e che non esisterebbe altrimenti. I criteri includono esecuzione, leverage, novità, ispirazione, estetica, divertimento. Le persone possono votare le proposte mettendo mi piace, questa "scelta del popolo" sarà anche un fattore. Deciderò il vincitore il 17 agosto e invierò $5478.51 :)
677,06K
Tim Dettmers ha ripubblicato
Alcuni aggiornamenti 🚨
Ho terminato il mio dottorato di ricerca a @uwcse nel giugno 2025!
Dopo un anno in AI2 come ricercatore, entrerò a far parte di CMU @LTIatCMU & @mldcmu (per gentile concessione) come Assistant Professor nell'autunno del 2026.
Il viaggio, i riconoscimenti e il reclutamento in 🧵


98,87K
Tim Dettmers ha ripubblicato
Annunciamo il nostro primo lavoro sull'inferenza FP4 per gli LLM!
- QuTLASS: supporto del kernel a bassa precisione per le GPU Blackwell
- FP-Quant: un cablaggio di quantizzazione flessibile per Llama/Qwen
Raggiungiamo un'accelerazione 4x rispetto a BF16, con una buona precisione grazie al microscaling MXFP4 + rotazioni Hadamard fuse.


22,62K
Tim Dettmers ha ripubblicato
La tokenizzazione è solo un caso speciale di "chunking" - la costruzione di dati di basso livello in astrazioni di alto livello - che è a sua volta fondamentale per l'intelligenza.
La nostra nuova architettura, che consente la suddivisione gerarchica in blocchi dinamici, non solo è priva di tokenizzatore, ma semplicemente si adatta meglio.

194,81K
Principali
Ranking
Preferiti