¡El mejor y más rápido modelo de conversión de voz a texto del mundo acaba de mejorar aún más! @AssemblyAI acaba de lanzar una gran actualización, y estoy absolutamente enamorado de una de las nuevas características. 1. Primero, ahora pueden identificar automáticamente a la persona que habla en un audio por nombre o rol. 2. También puedes solicitar una transcripción en cualquier idioma (99 idiomas soportados hasta ahora), así que no tienes que preocuparte por realizar pasos adicionales para la traducción. Pero mi característica favorita, con diferencia, es el LLM Gateway, que te permite consolidar toda tu pila de voz en una sola plataforma. El gateway es una API que puedes usar para una amplia gama de tareas relacionadas con el audio. Por ejemplo, podrías usarlo para resumir una llamada, extraer información o clasificar el sentimiento del hablante. No hay necesidad de un pipeline de múltiples pasos ya. Puedes hacer una sola llamada, y la plataforma dirigirá la solicitud al modelo apropiado, incluyendo OpenAI, Gemini y otros. ¡Esto es enorme para cualquiera que use voz en aplicaciones de producción! Todo esto funciona en su plataforma de conversión de voz a texto ya increíblemente rápida y precisa, con diarización y entrenamiento multilingüe integrados. Si estás construyendo con voz, esto es un cambio de juego. He sido usuario de Assembly AI durante años. Sus modelos y APIs son increíbles, y estoy contento de que decidieran colaborar conmigo en esta publicación. Puedes probar su modelo en su playground haciendo clic aquí: