Os gigantes da tecnologia usam o RAG multimodal todos os dias na produção! - O Spotify o usa para responder a consultas de música - O YouTube o usa para transformar prompts em faixas - O Amazon Music o usa para criar uma lista de reprodução a partir do prompt Vamos aprender a construir um RAG agêntico multimodal (com código):
Hoje, criaremos um RAG Agentic multimodal que pode consultar documentos e arquivos de áudio usando a fala do usuário. Pilha de tecnologia: - @AssemblyAI para transcrição. - @milvusio como o vetor DB. - @beam_cloud para implantação. - @crewAIInc Fluxos para orquestração. Vamos construí-lo!
Aqui está o fluxo de trabalho: - Dados de entrada do usuário (áudio + documentos). - O AssemblyAI transcreve os arquivos de áudio. - O texto e os documentos transcritos são incorporados no banco de dados vetorial Milvus. - O Agente de Pesquisa recupera informações da consulta do usuário. - O Agente de Resposta o usa para criar uma resposta. Verifique isso👇
1️⃣ Ingestão de dados Para começar, o usuário fornece os dados de entrada de texto e áudio no diretório de dados. O CrewAI Flow implementa a lógica para descobrir os arquivos e prepará-los para processamento posterior. Verifique isso👇
2️⃣ Transcrever áudio Em seguida, transcrevemos a entrada de áudio do usuário usando a plataforma Speech-to-text da AssemblyAI. O AssemblyAI não é de código aberto, mas oferece amplos créditos gratuitos para usar seus modelos de transcrição SOTA, que são mais do que suficientes para esta demonstração. Verifique isso👇
3️⃣ Incorporar dados de entrada Seguindo em frente, os dados de entrada transcritos da etapa acima e os dados de texto de entrada são incorporados e armazenados no banco de dados vetorial Milvus. Veja como fazemos isso 👇
4️⃣ Consulta do usuário A ingestão acabou. Agora passamos para a fase de inferência! Em seguida, o usuário insere uma consulta de voz, que é transcrita pelo AssemblyAI. Verifique isso👇
5️⃣ Recuperar contexto Em seguida, geramos uma incorporação para a consulta e extraímos as partes mais relevantes do banco de dados vetorial Milvus. É assim que 👇 fazemos
6️⃣ Gere uma resposta Assim que tivermos o contexto relevante, nossa equipe é invocada para gerar uma resposta clara e citada para o usuário. Verifique isso 👇
Por fim, reunimos tudo em uma interface Streamlit limpa e implantamos o aplicativo em um contêiner sem servidor usando o Beam. Importamos as dependências necessárias do Python e especificamos as especificações de computação para o contêiner. E então implantamos o aplicativo em algumas linhas de código👇
Uma vez implantado, obtemos uma implantação 100% privada para o fluxo de trabalho multimodal RAG Agentic que acabamos de criar. Confira esta demonstração 👇
Aqui está o fluxo de trabalho que implementamos: - Dados fornecidos pelo usuário (áudio + documentos) - AssemblyAI transcreveu os arquivos de áudio - Os dados transcritos são incorporados no banco de dados vetorial - O Agente de Pesquisa recuperou informações da consulta do usuário - O Agente de Resposta o usou para criar uma resposta Verifique isso👇
Se você achou perspicaz, compartilhe novamente com sua rede. Encontre-me → @akshay_pachaar ✔️ Para obter mais insights e tutoriais sobre LLMs, agentes de IA e aprendizado de máquina!
Akshay 🚀
Akshay 🚀5 de ago., 20:30
Os gigantes da tecnologia usam o RAG multimodal todos os dias na produção! - O Spotify o usa para responder a consultas de música - O YouTube o usa para transformar prompts em faixas - O Amazon Music o usa para criar uma lista de reprodução a partir do prompt Vamos aprender a construir um RAG agêntico multimodal (com código):
106,57K