Het feit dat al de grote AI-stemmodi worden aangedreven door domme modellen, laat staan sycophantische domme modellen die zijn ontworpen om disfluencies te hebben die een menselijke chat faken ("um"), onderwaardeert de waarde van stem in het beheren van agenten. Een "serieuze stemmodus" voor werk zou zeer nuttig zijn.
Er zijn betere modellen beschikbaar: AI-stemmen zijn al bijna een eeuw een vast onderdeel van de media. En er is een reden waarom de computer uit Star Trek niet giechelde, zuchtte, "um" zei en je vertelde hoe geweldig je was midden in een taak met hoge inzet.
Het is ook opmerkelijk moeilijk om deze slimme stemmodus te maken met de huidige API's. Je moet in wezen spraak transcriberen naar een slim model met behulp van het ene hulpmiddel en vervolgens TTS gebruiken met een ander, wat geen van de heen-en-weer en onderbrekingen heeft die volledige multimodale spraak kan bieden.
118