Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers repostou
Apresentando a DeepConf: Pense Profundamente com Confiança
🚀 Primeiro método para atingir 99,9% no AIME 2025 com modelos de código aberto! Usando GPT-OSS-120B mesmo sem ferramentas, alcançamos essa precisão quase perfeita, economizando até 85% dos tokens gerados.
Ele também oferece muitas vantagens fortes para o pensamento paralelo:
🔥 Aumento de desempenho: ~ 10% de precisão em modelos e conjuntos de dados
⚡ Ultraeficiente: Até 85% menos tokens gerados
🔧 Plug & play: Funciona com QUALQUER modelo existente - não é necessário treinamento (sem ajuste de hiperparâmetro também!)
⭐ Fácil de implantar: apenas ~ 50 linhas de código no vLLM (veja PR abaixo)
📚 Papel:
🌐 Projeto:
trabalho conjunto com: @FuYichao123, xuewei_wang, @tydsh
(veja detalhes nos comentários abaixo)
408,73K
Tim Dettmers repostou
Podemos quebrar a parede de memória para inferência LLM via rematerialização de cache KV?
🚨 Apresentando o XQuant, que aproveita unidades de computação subutilizadas para eliminar o gargalo de memória para inferência LLM!
• Economia de memória de 10 a 12,5x em relação ao FP16
• Perda de precisão quase zero
• Supera a quantização🔥 KV de última geração
Principais insights:
1. Cache KV = gargalo → cresce linearmente com o comprimento do contexto + tamanho do lote.
2. Computação >> memória → As GPUs oferecem FLOPs ordens de magnitude mais rápidas do que a largura de banda da memória.
3. A ideia-chave → não armazene KV, apenas recalcule-o. 🧠
Como a inferência LLM normalmente é associada à largura de banda da memória, as unidades de computação geralmente ficam ociosas e subutilizadas. Assim, podemos colocar essa computação disponível em uso sem qualquer sobrecarga!
As tendências de hardware de GPU mostram que os recursos de computação estão sendo dimensionados muito mais rapidamente do que a largura de banda da memória. Assim, reduzir as operações de memória em troca de mais computação pode ajudar a acelerar a inferência do LLM. O cache KV cresce linearmente com o comprimento da sequência e o tamanho do lote, incorrendo na maioria das operações de memória durante a inferência do LLM. Se pudermos negociar computação adicional para contornar o carregamento e o armazenamento do cache KV, podemos acelerar a inferência!
O XQuant explora essa tendência de hardware: 🧵 [1/7]
Papel:
Trabalho conjunto com: @coleman_hooper1 @mjlee_official de @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang de @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K
Melhores
Classificação
Favoritos