Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers republicou
Apresentando o DeepConf: Pense Profundamente com Confiança
🚀 Primeiro método para alcançar 99,9% no AIME 2025 com modelos de código aberto! Usando o GPT-OSS-120B mesmo sem ferramentas, alcançamos essa precisão quase perfeita enquanto economizamos até 85% dos tokens gerados.
Ele também oferece muitas vantagens fortes para o pensamento paralelo:
🔥 Aumento de desempenho: ~10% de precisão em modelos e conjuntos de dados
⚡ Ultra-eficiente: Até 85% menos tokens gerados
🔧 Plug & play: Funciona com QUALQUER modelo existente - zero treinamento necessário (sem ajuste de hiperparâmetros também!)
⭐ Fácil de implantar: Apenas ~50 linhas de código no vLLM (veja o PR abaixo)
📚 Artigo:
🌐 Projeto:
trabalho conjunto com: @FuYichao123 , xuewei_wang, @tydsh
(veja os detalhes nos comentários abaixo)
408,73K
Tim Dettmers republicou
Podemos quebrar a barreira da memória para a inferência de LLM através da rematerialização do cache KV?
🚨 Apresentando o XQuant, que aproveita unidades de computação subutilizadas para eliminar o gargalo de memória na inferência de LLM!
• 10–12.5x de economia de memória em comparação com FP16
• Quase nenhuma perda de precisão
• Supera a quantização KV de última geração🔥
Principais insights:
1. Cache KV = gargalo → cresce linearmente com o comprimento do contexto + tamanho do lote.
2. Computação >> memória → GPUs oferecem FLOPs em ordens de magnitude mais rápidas do que a largura de banda da memória.
3. Ideia chave → não armazene KV, apenas recompute-o. 🧠
Como a inferência de LLM é tipicamente limitada pela largura de banda da memória, as unidades de computação estão frequentemente ociosas e subutilizadas. Portanto, podemos utilizar essa computação disponível sem qualquer sobrecarga!
As tendências de hardware de GPU mostram que as capacidades de computação estão escalando muito mais rápido do que a largura de banda da memória. Assim, reduzir operações de memória em troca de mais computação pode ajudar a acelerar a inferência de LLM. O cache KV cresce linearmente com o comprimento da sequência e o tamanho do lote, incorrendo na maioria das operações de memória durante a inferência de LLM. Se pudermos trocar computação adicional para contornar o carregamento e armazenamento do cache KV, podemos acelerar a inferência!
O XQuant explora essa tendência de hardware: 🧵 [1/7]
Artigo:
Trabalho conjunto com: @coleman_hooper1 @mjlee_official da @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang da @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K
Top
Classificação
Favoritos