Podemos quebrar a barreira da memória para a inferência de LLM através da rematerialização do cache KV? 🚨 Apresentando o XQuant, que aproveita unidades de computação subutilizadas para eliminar o gargalo de memória na inferência de LLM! • 10–12.5x de economia de memória em comparação com FP16 • Quase nenhuma perda de precisão • Supera a quantização KV de última geração🔥 Principais insights: 1. Cache KV = gargalo → cresce linearmente com o comprimento do contexto + tamanho do lote. 2. Computação >> memória → GPUs oferecem FLOPs em ordens de magnitude mais rápidas do que a largura de banda da memória. 3. Ideia chave → não armazene KV, apenas recompute-o. 🧠 Como a inferência de LLM é tipicamente limitada pela largura de banda da memória, as unidades de computação estão frequentemente ociosas e subutilizadas. Portanto, podemos utilizar essa computação disponível sem qualquer sobrecarga! As tendências de hardware de GPU mostram que as capacidades de computação estão escalando muito mais rápido do que a largura de banda da memória. Assim, reduzir operações de memória em troca de mais computação pode ajudar a acelerar a inferência de LLM. O cache KV cresce linearmente com o comprimento da sequência e o tamanho do lote, incorrendo na maioria das operações de memória durante a inferência de LLM. Se pudermos trocar computação adicional para contornar o carregamento e armazenamento do cache KV, podemos acelerar a inferência! O XQuant explora essa tendência de hardware: 🧵 [1/7] Artigo: Trabalho conjunto com: @coleman_hooper1 @mjlee_official da @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang da @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami
32,42K