Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers a reposté
Présentation de DeepConf : Pensez profondément avec confiance
🚀 Première méthode pour atteindre 99,9 % sur AIME 2025 avec des modèles open-source ! En utilisant GPT-OSS-120B même sans outils, nous avons atteint cette précision presque parfaite tout en économisant jusqu'à 85 % de tokens générés.
Cela offre également de nombreux avantages pour la pensée parallèle :
🔥 Amélioration des performances : ~10 % de précision en plus sur les modèles et les ensembles de données
⚡ Ultra-efficace : Jusqu'à 85 % de tokens générés en moins
🔧 Plug & play : Fonctionne avec N'IMPORTE quel modèle existant - aucune formation nécessaire (pas de réglage d'hyperparamètres non plus !)
⭐ Facile à déployer : Juste ~50 lignes de code dans vLLM (voir PR ci-dessous)
📚 Article :
🌐 Projet :
travail conjoint avec : @FuYichao123 , xuewei_wang, @tydsh
(voir les détails dans les commentaires ci-dessous)
408,73K
Tim Dettmers a reposté
Pouvons-nous briser le mur de la mémoire pour l'inférence LLM via la rematérialisation du cache KV ?
🚨 Présentation de XQuant, qui exploite des unités de calcul sous-utilisées pour éliminer le goulet d'étranglement de la mémoire pour l'inférence LLM !
• Économies de mémoire de 10 à 12,5 fois par rapport à FP16
• Perte de précision presque nulle
• Dépasse la quantification KV à la pointe de la technologie 🔥
Principaux points à retenir :
1. Cache KV = goulet d'étranglement → croît linéairement avec la longueur du contexte + la taille du lot.
2. Calcul >> mémoire → les GPU offrent des FLOPs des ordres de grandeur plus rapides que la bande passante mémoire.
3. Idée clé → ne pas stocker KV, juste le recalculer. 🧠
Étant donné que l'inférence LLM est généralement limitée par la bande passante mémoire, les unités de calcul sont souvent inactives et sous-utilisées. Ainsi, nous pouvons mettre ce calcul disponible à profit sans aucun surcoût !
Les tendances du matériel GPU montrent que les capacités de calcul évoluent beaucoup plus rapidement que la bande passante mémoire. Ainsi, réduire les opérations mémoire en échange de plus de calcul peut aider à accélérer l'inférence LLM. Le cache KV croît linéairement avec la longueur de la séquence et la taille du lot, entraînant la majorité des opérations mémoire lors de l'inférence LLM. Si nous pouvons échanger un calcul supplémentaire pour contourner le chargement et le stockage du cache KV, nous pouvons accélérer l'inférence !
XQuant exploite cette tendance matérielle : 🧵 [1/7]
Article :
Travail conjoint avec : @coleman_hooper1 @mjlee_official de @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang de @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K
Meilleurs
Classement
Favoris