DApp Store | Piattaforma Web3 per eventi e giochi

Esplora Giveaway Web3 per altre entusiasmanti ricompense

Argomenti di tendenza

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP+0,28%

Boopa+13,36%

PORK-2,46%

Tim Dettmers

Tim Dettmers ha ripubblicato

Sam Bowman16 ore fa

All'inizio di quest'estate, OpenAI e Anthropic hanno concordato di provare alcuni dei nostri migliori test esistenti per il disallineamento sui modelli dell'altro. Dopo aver discusso i nostri risultati in privato, ora li stiamo condividendo con il mondo. 🧵

69,28K

Tim Dettmers ha ripubblicato

Mark Saroufim23 ago, 05:09

È di nuovo tempo per la nostra ultima (ora annuale) straordinaria celebrazione dell'anno. GPU MODE si incontra di persona di nuovo nel centro di San Francisco venerdì 24 ottobre dalle 10:00 alle 22:00 per hackare tutto il giorno.

13,81K

Tim Dettmers ha ripubblicato

Jiawei Zhao23 ago, 04:00

Introducendo DeepConf: Pensa in Profondità con Fiducia 🚀 Primo metodo per raggiungere il 99,9% su AIME 2025 con modelli open-source! Utilizzando GPT-OSS-120B anche senza strumenti, abbiamo raggiunto questa precisione quasi perfetta risparmiando fino all'85% dei token generati. Offre anche molti forti vantaggi per il pensiero parallelo: 🔥 Aumento delle prestazioni: ~10% di precisione su modelli e dataset ⚡ Ultra-efficiente: Fino all'85% in meno di token generati 🔧 Plug & play: Funziona con QUALSIASI modello esistente - nessun addestramento necessario (niente ottimizzazione degli iperparametri!) ⭐ Facile da implementare: Solo ~50 righe di codice in vLLM (vedi PR qui sotto) 📚 Documento: 🌐 Progetto: lavoro congiunto con: @FuYichao123 , xuewei_wang, @tydsh (vedi dettagli nei commenti qui sotto)

408,72K

Tim Dettmers ha ripubblicato

Aditya Tomar20 ago, 14:07

Possiamo superare il muro della memoria per l'inferenza LLM tramite la rimaterializzazione della cache KV? 🚨 Presentiamo XQuant, che sfrutta unità di calcolo sottoutilizzate per eliminare il collo di bottiglia della memoria per l'inferenza LLM! • Risparmi di memoria da 10 a 12,5 volte rispetto a FP16 • Perdita di precisione quasi zero • Supera la quantizzazione KV all'avanguardia🔥 Principali intuizioni: 1. Cache KV = collo di bottiglia → cresce linearmente con la lunghezza del contesto + dimensione del batch. 2. Calcolo >> memoria → le GPU offrono FLOP ordini di grandezza più veloci rispetto alla larghezza di banda della memoria. 3. Idea chiave → non memorizzare KV, basta ricalcolarlo. 🧠 Poiché l'inferenza LLM è tipicamente limitata dalla larghezza di banda della memoria, le unità di calcolo sono spesso inattive e sottoutilizzate. Quindi, possiamo utilizzare questo calcolo disponibile senza alcun sovraccarico! Le tendenze hardware delle GPU mostrano che le capacità di calcolo stanno scalando molto più velocemente della larghezza di banda della memoria. Pertanto, ridurre le operazioni di memoria in cambio di più calcolo può aiutare ad accelerare l'inferenza LLM. La cache KV cresce linearmente con la lunghezza della sequenza e la dimensione del batch, sostenendo la maggior parte delle operazioni di memoria durante l'inferenza LLM. Se possiamo scambiare calcolo aggiuntivo per evitare il caricamento e la memorizzazione della cache KV, possiamo accelerare l'inferenza! XQuant sfrutta questa tendenza hardware: 🧵 [1/7] Documento: Lavoro congiunto con: @coleman_hooper1 @mjlee_official di @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang di @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K

Tim Dettmers12 ago, 20:08

A mio avviso, SWE-bench e T-bench sono i pochi benchmark che hanno un buon segnale in termini di quanto progresso facciamo con i modelli. Questo modello si comporta altrettanto bene quanto Qwen3 Coder ed è solo il 10% peggiore di GPT-5, pur essendo un LLM di uso generale piuttosto che specializzato nel codice.

Z.ai11 ago, 11:43

Presentazione del rapporto tecnico GLM-4.5!👇 Questo lavoro dimostra come abbiamo sviluppato modelli che eccellono nel ragionamento, nella codifica e nei compiti agentici attraverso un paradigma di formazione unico e multi-fase. Le principali innovazioni includono l'iterazione del modello esperto con auto-distillazione per unificare le capacità, una modalità di ragionamento ibrida per la risoluzione dinamica dei problemi e un curriculum di apprendimento rinforzato basato sulla difficoltà.

28,63K

Tim Dettmers8 ago, 02:21

Sembra che il panorama tra codice sorgente chiuso e pesi aperti sia stato livellato. GPT-5 è solo il 10% migliore nella programmazione rispetto a un modello con pesi aperti che puoi eseguire su un desktop consumer e presto anche su un laptop. Se Anthropic non riesce a sviluppare un buon modello, probabilmente non vedremo AGI per un po'.

67,24K

Tim Dettmers ha ripubblicato

Andrej Karpathy4 ago, 02:36

Doccia di pensieri: Invece di tenere il tuo pagamento di Twitter/𝕏, indirizzalo verso una "PayoutChallenge" a tua scelta - qualsiasi cosa tu voglia di più nel mondo! Ecco la mia per questo turno, combinando i miei ultimi 3 pagamenti di $5478.51: È imperativo che l'umanità non cada mentre l'IA ascende. L'umanità deve continuare a elevarsi, a diventare migliore insieme. Crea qualcosa che sia specificamente progettato per sollevare il team umano. La definizione è intenzionalmente lasciata un po' vaga per mantenere un po' di entropia nell'interpretazione delle persone, ma secondo me gli esempi includono: - Qualsiasi pezzo di software che aiuti spiegazione, visualizzazione, memorizzazione, ispirazione, comprensione, coordinazione, ecc... - Non deve essere troppo ambizioso, ad esempio può essere un articolo/video educativo specifico che spiega qualcosa da cui altre persone potrebbero trarre beneficio o di cui hai conoscenze uniche. - Prompts/agenti per spiegazione, ad esempio lungo le linee della modalità studio di ChatGPT recentemente rilasciata. - Opere d'arte correlate Questa sfida durerà per 2 settimane fino al 17 agosto EOD PST. Invia il tuo contributo come risposta. Deve essere qualcosa che è stato creato unicamente per questa sfida e che non esisterebbe altrimenti. I criteri includono esecuzione, leverage, novità, ispirazione, estetica, divertimento. Le persone possono votare le proposte mettendo mi piace, questa "scelta del popolo" sarà anche un fattore. Deciderò il vincitore il 17 agosto e invierò $5478.51 :)

677,06K

Tim Dettmers ha ripubblicato

Akari Asai16 lug 2025

Alcuni aggiornamenti 🚨 Ho terminato il mio dottorato di ricerca a @uwcse nel giugno 2025! Dopo un anno in AI2 come ricercatore, entrerò a far parte di CMU @LTIatCMU & @mldcmu (per gentile concessione) come Assistant Professor nell'autunno del 2026. Il viaggio, i riconoscimenti e il reclutamento in 🧵

98,87K

Tim Dettmers ha ripubblicato

Dan Alistarh14 lug 2025

Annunciamo il nostro primo lavoro sull'inferenza FP4 per gli LLM! - QuTLASS: supporto del kernel a bassa precisione per le GPU Blackwell - FP-Quant: un cablaggio di quantizzazione flessibile per Llama/Qwen Raggiungiamo un'accelerazione 4x rispetto a BF16, con una buona precisione grazie al microscaling MXFP4 + rotazioni Hadamard fuse.

22,62K

Tim Dettmers ha ripubblicato

Albert Gu12 lug 2025

La tokenizzazione è solo un caso speciale di "chunking" - la costruzione di dati di basso livello in astrazioni di alto livello - che è a sua volta fondamentale per l'intelligenza. La nostra nuova architettura, che consente la suddivisione gerarchica in blocchi dinamici, non solo è priva di tokenizzatore, ma semplicemente si adatta meglio.

194,81K

Principali

Ranking

Preferiti