DApp Store | Hub Web3 pour les événements et les jeux | OKX Wallet

Explorez l’offre Web3 pour obtenir des récompenses plus intéressantes

background background

discoveryBanners

Rubriques tendance

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+17,2 %

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Tim Dettmers

Tim Dettmers a reposté

Sam Bowman

Sam Bowmanil y a 20 heures

Au début de cet été, OpenAI et Anthropic ont convenu d'essayer certains de nos meilleurs tests existants pour le désalignement sur les modèles de l'autre. Après avoir discuté de nos résultats en privé, nous les partageons maintenant avec le monde. 🧵

73,75K

Tim Dettmers a reposté

Jiawei Zhao

Jiawei Zhao23 août, 04:00

Présentation de DeepConf : Pensez profondément avec confiance 🚀 Première méthode pour atteindre 99,9 % sur AIME 2025 avec des modèles open-source ! En utilisant GPT-OSS-120B même sans outils, nous avons atteint cette précision presque parfaite tout en économisant jusqu'à 85 % de tokens générés. Cela offre également de nombreux avantages pour la pensée parallèle : 🔥 Amélioration des performances : ~10 % de précision en plus sur les modèles et les ensembles de données ⚡ Ultra-efficace : Jusqu'à 85 % de tokens générés en moins 🔧 Plug & play : Fonctionne avec N'IMPORTE quel modèle existant - aucune formation nécessaire (pas de réglage d'hyperparamètres non plus !) ⭐ Facile à déployer : Juste ~50 lignes de code dans vLLM (voir PR ci-dessous) 📚 Article : 🌐 Projet : travail conjoint avec : @FuYichao123 , xuewei_wang, @tydsh (voir les détails dans les commentaires ci-dessous)

408,73K

Tim Dettmers a reposté

Aditya Tomar

Aditya Tomar20 août, 14:07

Pouvons-nous briser le mur de la mémoire pour l'inférence LLM via la rematérialisation du cache KV ? 🚨 Présentation de XQuant, qui exploite des unités de calcul sous-utilisées pour éliminer le goulet d'étranglement de la mémoire pour l'inférence LLM ! • Économies de mémoire de 10 à 12,5 fois par rapport à FP16 • Perte de précision presque nulle • Dépasse la quantification KV à la pointe de la technologie 🔥 Principaux points à retenir : 1. Cache KV = goulet d'étranglement → croît linéairement avec la longueur du contexte + la taille du lot. 2. Calcul >> mémoire → les GPU offrent des FLOPs des ordres de grandeur plus rapides que la bande passante mémoire. 3. Idée clé → ne pas stocker KV, juste le recalculer. 🧠 Étant donné que l'inférence LLM est généralement limitée par la bande passante mémoire, les unités de calcul sont souvent inactives et sous-utilisées. Ainsi, nous pouvons mettre ce calcul disponible à profit sans aucun surcoût ! Les tendances du matériel GPU montrent que les capacités de calcul évoluent beaucoup plus rapidement que la bande passante mémoire. Ainsi, réduire les opérations mémoire en échange de plus de calcul peut aider à accélérer l'inférence LLM. Le cache KV croît linéairement avec la longueur de la séquence et la taille du lot, entraînant la majorité des opérations mémoire lors de l'inférence LLM. Si nous pouvons échanger un calcul supplémentaire pour contourner le chargement et le stockage du cache KV, nous pouvons accélérer l'inférence ! XQuant exploite cette tendance matérielle : 🧵 [1/7] Article : Travail conjoint avec : @coleman_hooper1 @mjlee_official de @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang de @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K

Meilleurs

Classement

Favoris

©2017 - 2025 WEB3.OKX.COM

Français 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

En savoir plus sur OKX Web3

Télécharger Learn À propos de nous Offres d'emploi Nous contacter Conditions d’utilisation Avis de confidentialité X (anciennement Twitter)

Produit

Tableau de bord du portefeuille Swap Marché Earn Découvrir Créer Explorateur Sécurité

Assistance

Centre d'assistance Vérification officielle Annonces DEX fee schedule Connexion avec OKX Portefeuille Bitcoin Portefeuille Ethereum Portefeuille Solana