Loja DApp | Hub Web3 para eventos e jogos

Explore o Sorteio Web3 para mais recompensas entusiasmantes

Tópicos populares

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-1,4%

Boopa+9,3%

PORK-0,55%

Tim Dettmers

Tim Dettmers republicou

Sam BowmanHá 20 horas

No início deste verão, a OpenAI e a Anthropic concordaram em testar alguns dos nossos melhores testes existentes para desalinhamento nos modelos uns dos outros. Após discutirmos os nossos resultados em privado, agora estamos compartilhando-os com o mundo. 🧵

73,75K

Tim Dettmers republicou

Jiawei Zhao23/08, 04:00

Apresentando o DeepConf: Pense Profundamente com Confiança 🚀 Primeiro método para alcançar 99,9% no AIME 2025 com modelos de código aberto! Usando o GPT-OSS-120B mesmo sem ferramentas, alcançamos essa precisão quase perfeita enquanto economizamos até 85% dos tokens gerados. Ele também oferece muitas vantagens fortes para o pensamento paralelo: 🔥 Aumento de desempenho: ~10% de precisão em modelos e conjuntos de dados ⚡ Ultra-eficiente: Até 85% menos tokens gerados 🔧 Plug & play: Funciona com QUALQUER modelo existente - zero treinamento necessário (sem ajuste de hiperparâmetros também!) ⭐ Fácil de implantar: Apenas ~50 linhas de código no vLLM (veja o PR abaixo) 📚 Artigo: 🌐 Projeto: trabalho conjunto com: @FuYichao123 , xuewei_wang, @tydsh (veja os detalhes nos comentários abaixo)

408,73K

Tim Dettmers republicou

Aditya Tomar20/08, 14:07

Podemos quebrar a barreira da memória para a inferência de LLM através da rematerialização do cache KV? 🚨 Apresentando o XQuant, que aproveita unidades de computação subutilizadas para eliminar o gargalo de memória na inferência de LLM! • 10–12.5x de economia de memória em comparação com FP16 • Quase nenhuma perda de precisão • Supera a quantização KV de última geração🔥 Principais insights: 1. Cache KV = gargalo → cresce linearmente com o comprimento do contexto + tamanho do lote. 2. Computação >> memória → GPUs oferecem FLOPs em ordens de magnitude mais rápidas do que a largura de banda da memória. 3. Ideia chave → não armazene KV, apenas recompute-o. 🧠 Como a inferência de LLM é tipicamente limitada pela largura de banda da memória, as unidades de computação estão frequentemente ociosas e subutilizadas. Portanto, podemos utilizar essa computação disponível sem qualquer sobrecarga! As tendências de hardware de GPU mostram que as capacidades de computação estão escalando muito mais rápido do que a largura de banda da memória. Assim, reduzir operações de memória em troca de mais computação pode ajudar a acelerar a inferência de LLM. O cache KV cresce linearmente com o comprimento da sequência e o tamanho do lote, incorrendo na maioria das operações de memória durante a inferência de LLM. Se pudermos trocar computação adicional para contornar o carregamento e armazenamento do cache KV, podemos acelerar a inferência! O XQuant explora essa tendência de hardware: 🧵 [1/7] Artigo: Trabalho conjunto com: @coleman_hooper1 @mjlee_official da @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang da @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami