Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
As grandes empresas de tecnologia usam RAG Multimodal todos os dias em produção!
- O Spotify usa para responder a consultas sobre música
- O YouTube usa para transformar prompts em faixas
- O Amazon Music usa para criar playlists a partir de prompts
Vamos aprender como construir um RAG Agente Multimodal (com código):
Hoje, vamos construir um RAG Agente Multimodal que pode consultar documentos e arquivos de áudio usando a fala do usuário.
Stack tecnológico:
- @AssemblyAI para transcrição.
- @milvusio como o DB vetorial.
- @beam_cloud para implantação.
- @crewAIInc Flows para orquestração.
Vamos construí-lo!
Aqui está o fluxo de trabalho:
- O utilizador insere dados (áudio + documentos).
- A AssemblyAI transcreve os ficheiros de áudio.
- O texto transcrito e os documentos são incorporados na base de dados vetorial Milvus.
- O Agente de Pesquisa recupera informações da consulta do utilizador.
- O Agente de Resposta utiliza isso para elaborar uma resposta.
Verifique isto👇
1️⃣ Ingestão de Dados
Para começar, o utilizador fornece os dados de entrada em texto e áudio no diretório de dados.
O CrewAI Flow implementa a lógica para descobrir os ficheiros e prepará-los para processamento adicional.
Verifique isto👇

2️⃣ Transcrever áudio
Em seguida, transcrevemos a entrada de áudio do usuário usando a plataforma de reconhecimento de fala da AssemblyAI.
A AssemblyAI não é de código aberto, mas oferece muitos créditos gratuitos para usar seus modelos de transcrição SOTA, que são mais do que suficientes para esta demonstração.
Confira isto👇

3️⃣ Incorporar dados de entrada
Seguindo em frente, os dados de entrada transcritos da etapa acima e os dados de texto de entrada são incorporados e armazenados na base de dados vetorial Milvus.
Aqui está como fazemos isso 👇

4️⃣ Consulta do utilizador
A ingestão está concluída.
Agora passamos para a fase de inferência!
A seguir, o utilizador insere uma consulta por voz, que é transcrita pelo AssemblyAI.
Verifique isto👇

5️⃣ Recuperar contexto
Em seguida, geramos uma incorporação para a consulta e extraímos os pedaços mais relevantes da base de dados vetorial Milvus.
É assim que fazemos 👇

6️⃣ Gere uma resposta
Uma vez que temos o contexto relevante, a nossa Equipa é convocada para gerar uma resposta clara e citada para o utilizador.
Verifique isto 👇

Finalmente, reunimos tudo numa interface Streamlit limpa e implantamos a aplicação num container sem servidor usando o Beam.
Importamos as dependências necessárias do Python e especificamos as especificações de computação para o container.
E então implantamos a aplicação em algumas linhas de código👇

Uma vez implementado, obtemos uma implementação 100% privada para o fluxo de trabalho Agente Multimodal RAG que acabámos de construir.
Veja esta demonstração 👇
Aqui está o fluxo de trabalho que implementámos:
- O utilizador forneceu dados (áudio + documentos)
- A AssemblyAI transcreveu os ficheiros de áudio
- Os dados transcritos são incorporados na base de dados vetorial
- O Agente de Pesquisa recuperou informações da consulta do utilizador
- O Agente de Resposta usou isso para elaborar uma resposta
Verifique isto👇
Se você achou isso perspicaz, compartilhe novamente com sua rede.
Encontre-me → @akshay_pachaar ✔️
Para mais informações e tutoriais sobre LLMs, AI Agents e Machine Learning!

5/08, 20:30
As grandes empresas de tecnologia usam RAG Multimodal todos os dias em produção!
- O Spotify usa para responder a consultas sobre música
- O YouTube usa para transformar prompts em faixas
- O Amazon Music usa para criar playlists a partir de prompts
Vamos aprender como construir um RAG Agente Multimodal (com código):
106,52K
Top
Classificação
Favoritos