El hecho de que todos los grandes modos de voz de IA estén impulsados por modelos tontos, y ni hablar de modelos tontos y serviles que están diseñados para tener disfluencias que simulan una conversación humana ("um"), subestima el valor de la voz en la gestión de agentes. Un "modo de voz serio" para el trabajo sería muy útil
Hay mejores modelos por ahí: las voces de IA han sido un pilar de los medios durante la mayor parte de un siglo. Y hay una razón por la que la computadora de Star Trek no se reía, suspiraba, decía "um" y te decía lo genial que eras en medio de una tarea de alto riesgo.
También es notablemente difícil hacer este modo de voz inteligente con las API actuales. Básicamente, necesitas transcribir la voz en un modelo inteligente usando una herramienta y luego usar TTS con otra, que no tiene la interacción y la capacidad de interrupción que permite la voz multimodal completa.
122