O melhor e mais rápido modelo de fala para texto do mundo ficou ainda melhor! @AssemblyAI acabei de lançar uma grande atualização e estou absolutamente apaixonado por um dos novos recursos. 1. Primeiro, eles agora podem identificar automaticamente a pessoa que está falando em um áudio por nome ou função. 2. Você também pode solicitar uma transcrição em qualquer idioma (99 idiomas suportados até agora), para não precisar se preocupar em executar etapas adicionais para tradução. Mas meu recurso favorito, de longe, é o LLM Gateway, que permite consolidar toda a sua pilha de voz em uma única plataforma. O gateway é uma API que você pode usar para uma ampla variedade de tarefas relacionadas ao áudio. Por exemplo, você pode usá-lo para resumir uma chamada, extrair insights ou classificar o sentimento do orador. Não há mais necessidade de um pipeline de várias etapas. Você pode fazer uma única chamada e a plataforma encaminhará a solicitação para o modelo apropriado, incluindo OpenAI, Gemini e outros. Isso é enorme para quem usa voz em aplicativos de produção! Tudo isso é executado em sua plataforma de fala para texto já insanamente rápida e precisa, com diarização e treinamento multilíngue integrados. Se você está construindo com voz, isso é um divisor de águas. Sou usuário do Assembly AI há anos. Seus modelos e APIs são incríveis, e estou feliz que eles tenham decidido colaborar comigo neste post. Você pode experimentar o modelo deles em seu playground clicando aqui: