Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O melhor e mais rápido modelo de conversão de fala para texto do mundo acaba de ficar ainda melhor!
@AssemblyAI lançou uma grande atualização, e estou absolutamente apaixonado por uma das novas funcionalidades.
1. Primeiro, agora eles podem identificar automaticamente a pessoa que está falando em um áudio pelo nome ou função.
2. Você também pode solicitar uma transcrição em qualquer idioma (99 idiomas suportados até agora), para que não precise se preocupar em realizar etapas adicionais para tradução.
Mas a minha funcionalidade favorita, de longe, é o LLM Gateway, que permite consolidar toda a sua pilha de voz em uma única plataforma.
O gateway é uma API que você pode usar para uma ampla gama de tarefas relacionadas a áudio. Por exemplo, você poderia usá-la para resumir uma chamada, extrair insights ou classificar o sentimento do falante.
Não há mais necessidade de um pipeline de múltiplas etapas. Você pode fazer uma única chamada, e a plataforma irá direcionar a solicitação para o modelo apropriado, incluindo OpenAI, Gemini e outros.
Isso é enorme para qualquer pessoa que use voz em aplicações de produção!
Tudo isso funciona na sua plataforma de conversão de fala para texto já incrivelmente rápida e precisa, com diarização e treinamento multilíngue incorporados.
Se você está construindo com voz, isso é um divisor de águas.
Sou usuário da Assembly AI há anos. Seus modelos e APIs são incríveis, e estou feliz que eles decidiram colaborar comigo neste post.
Você pode experimentar o modelo deles em seu playground clicando aqui:
Top
Classificação
Favoritos

