Тот факт, что все крупные голосовые модели ИИ работают на примитивных моделях, не говоря уже о подхалимских примитивных моделях, которые созданы с дисфлуенциями, имитирующими человеческий разговор ("эм"), недооценивает ценность голоса в управлении агентами. «Серьезный голосовой режим» для работы был бы очень полезен.
Существуют лучшие модели: голоса ИИ на протяжении большей части века были основой медиа. И есть причина, по которой компьютер из Звёздного пути не хихикал, не вздыхал, не говорил "эм" и не говорил вам, какой вы замечательный, в разгар важной задачи.
Также удивительно сложно реализовать этот умный голосовой режим с текущими API. Вам нужно в основном транскрибировать голос в умную модель с помощью одного инструмента, а затем использовать TTS с помощью другого, который не обладает той обратной связью и возможностью прерывания, которые доступны в полном мультимодальном голосе.
120