DApp Store | Hub da Web3 para eventos e jogos | OKX Wallet

Explore o Prêmio Web3 para obter mais recompensas interessantes

background background

discoveryBanners

Tópicos em alta

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+13,8%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Tim Dettmers

Tim Dettmers repostou

Sam Bowman

Sam Bowman21 horas atrás

No início deste verão, a OpenAI e a Anthropic concordaram em experimentar alguns de nossos melhores testes existentes para desalinhamento nos modelos um do outro. Depois de discutir nossos resultados em particular, agora estamos compartilhando-os com o mundo. 🧵

79,41K

Tim Dettmers repostou

Jiawei Zhao

Jiawei Zhao23 de ago., 04:00

Apresentando a DeepConf: Pense Profundamente com Confiança 🚀 Primeiro método para atingir 99,9% no AIME 2025 com modelos de código aberto! Usando GPT-OSS-120B mesmo sem ferramentas, alcançamos essa precisão quase perfeita, economizando até 85% dos tokens gerados. Ele também oferece muitas vantagens fortes para o pensamento paralelo: 🔥 Aumento de desempenho: ~ 10% de precisão em modelos e conjuntos de dados ⚡ Ultraeficiente: Até 85% menos tokens gerados 🔧 Plug & play: Funciona com QUALQUER modelo existente - não é necessário treinamento (sem ajuste de hiperparâmetro também!) ⭐ Fácil de implantar: apenas ~ 50 linhas de código no vLLM (veja PR abaixo) 📚 Papel: 🌐 Projeto: trabalho conjunto com: @FuYichao123, xuewei_wang, @tydsh (veja detalhes nos comentários abaixo)

408,73K

Tim Dettmers repostou

Aditya Tomar

Aditya Tomar20 de ago., 14:07

Podemos quebrar a parede de memória para inferência LLM via rematerialização de cache KV? 🚨 Apresentando o XQuant, que aproveita unidades de computação subutilizadas para eliminar o gargalo de memória para inferência LLM! • Economia de memória de 10 a 12,5x em relação ao FP16 • Perda de precisão quase zero • Supera a quantização🔥 KV de última geração Principais insights: 1. Cache KV = gargalo → cresce linearmente com o comprimento do contexto + tamanho do lote. 2. Computação >> memória → As GPUs oferecem FLOPs ordens de magnitude mais rápidas do que a largura de banda da memória. 3. A ideia-chave → não armazene KV, apenas recalcule-o. 🧠 Como a inferência LLM normalmente é associada à largura de banda da memória, as unidades de computação geralmente ficam ociosas e subutilizadas. Assim, podemos colocar essa computação disponível em uso sem qualquer sobrecarga! As tendências de hardware de GPU mostram que os recursos de computação estão sendo dimensionados muito mais rapidamente do que a largura de banda da memória. Assim, reduzir as operações de memória em troca de mais computação pode ajudar a acelerar a inferência do LLM. O cache KV cresce linearmente com o comprimento da sequência e o tamanho do lote, incorrendo na maioria das operações de memória durante a inferência do LLM. Se pudermos negociar computação adicional para contornar o carregamento e o armazenamento do cache KV, podemos acelerar a inferência! O XQuant explora essa tendência de hardware: 🧵 [1/7] Papel: Trabalho conjunto com: @coleman_hooper1 @mjlee_official de @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang de @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K

Melhores

Classificação

Favoritos

©2017 - 2025 WEB3.OKX.COM

Português (Brasil)简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Mais sobre a OKX Web3

Baixar Tutoriais Nossa equipe Carreiras Fale conosco Termos de serviço Aviso de Privacidade X (antigo Twitter)

Produto

Painel da carteira Swap Marketplace Earn Descubra Crie Explorador Segurança

Atendimento

Centro de ajuda Verificação oficial Avisos DEX fee schedule Conecte-se com a OKX Carteira Bitcoin Carteira Ethereum Carteira Solana