As grandes empresas de tecnologia usam RAG Multimodal todos os dias em produção! - O Spotify usa para responder a consultas sobre música - O YouTube usa para transformar prompts em faixas - O Amazon Music usa para criar playlists a partir de prompts Vamos aprender como construir um RAG Agente Multimodal (com código):
Hoje, vamos construir um RAG Agente Multimodal que pode consultar documentos e arquivos de áudio usando a fala do usuário. Stack tecnológico: - @AssemblyAI para transcrição. - @milvusio como o DB vetorial. - @beam_cloud para implantação. - @crewAIInc Flows para orquestração. Vamos construí-lo!
Aqui está o fluxo de trabalho: - O utilizador insere dados (áudio + documentos). - A AssemblyAI transcreve os ficheiros de áudio. - O texto transcrito e os documentos são incorporados na base de dados vetorial Milvus. - O Agente de Pesquisa recupera informações da consulta do utilizador. - O Agente de Resposta utiliza isso para elaborar uma resposta. Verifique isto👇
1️⃣ Ingestão de Dados Para começar, o utilizador fornece os dados de entrada em texto e áudio no diretório de dados. O CrewAI Flow implementa a lógica para descobrir os ficheiros e prepará-los para processamento adicional. Verifique isto👇
2️⃣ Transcrever áudio Em seguida, transcrevemos a entrada de áudio do usuário usando a plataforma de reconhecimento de fala da AssemblyAI. A AssemblyAI não é de código aberto, mas oferece muitos créditos gratuitos para usar seus modelos de transcrição SOTA, que são mais do que suficientes para esta demonstração. Confira isto👇
3️⃣ Incorporar dados de entrada Seguindo em frente, os dados de entrada transcritos da etapa acima e os dados de texto de entrada são incorporados e armazenados na base de dados vetorial Milvus. Aqui está como fazemos isso 👇
4️⃣ Consulta do utilizador A ingestão está concluída. Agora passamos para a fase de inferência! A seguir, o utilizador insere uma consulta por voz, que é transcrita pelo AssemblyAI. Verifique isto👇
5️⃣ Recuperar contexto Em seguida, geramos uma incorporação para a consulta e extraímos os pedaços mais relevantes da base de dados vetorial Milvus. É assim que fazemos 👇
6️⃣ Gere uma resposta Uma vez que temos o contexto relevante, a nossa Equipa é convocada para gerar uma resposta clara e citada para o utilizador. Verifique isto 👇
Finalmente, reunimos tudo numa interface Streamlit limpa e implantamos a aplicação num container sem servidor usando o Beam. Importamos as dependências necessárias do Python e especificamos as especificações de computação para o container. E então implantamos a aplicação em algumas linhas de código👇
Uma vez implementado, obtemos uma implementação 100% privada para o fluxo de trabalho Agente Multimodal RAG que acabámos de construir. Veja esta demonstração 👇
Aqui está o fluxo de trabalho que implementámos: - O utilizador forneceu dados (áudio + documentos) - A AssemblyAI transcreveu os ficheiros de áudio - Os dados transcritos são incorporados na base de dados vetorial - O Agente de Pesquisa recuperou informações da consulta do utilizador - O Agente de Resposta usou isso para elaborar uma resposta Verifique isto👇
Se você achou isso perspicaz, compartilhe novamente com sua rede. Encontre-me → @akshay_pachaar ✔️ Para mais informações e tutoriais sobre LLMs, AI Agents e Machine Learning!
Akshay 🚀
Akshay 🚀5/08, 20:30
As grandes empresas de tecnologia usam RAG Multimodal todos os dias em produção! - O Spotify usa para responder a consultas sobre música - O YouTube usa para transformar prompts em faixas - O Amazon Music usa para criar playlists a partir de prompts Vamos aprender como construir um RAG Agente Multimodal (com código):
106,52K