Eu construí um sistema RAG que consulta mais de 36M de vetores em <0,03 segundos. A técnica utilizada torna o RAG 32x mais eficiente em termos de memória! Confira a análise detalhada com o código abaixo:
Avi Chawla
Avi Chawla4/08, 14:33
Uma técnica simples torna o RAG ~32x mais eficiente em termos de memória! - A Perplexity usa isso em seu índice de busca - A Azure usa isso em seu pipeline de busca - A HubSpot usa isso em seu assistente de IA Vamos entender como usá-lo em sistemas RAG (com código):
45,04K