Faptul că toate modurile vocale AI mari sunt alimentate de modele proaste, ca să nu mai vorbim de modele lingușitoare și proaste concepute să aibă disfluențe ce să simuleze o conversație umană ("um"), subestimează valoarea vocii în managementul agenților. Un "mod vocal serios" pentru muncă ar fi foarte util
Există modele mai bune: vocile AI au fost o prezență constantă în media de aproape un secol. Și există un motiv pentru care calculatorul din Star Trek nu a chicotit, nu a oftat și nu a spus "um" și ți-a spus cât de grozav ai fost în mijlocul unei sarcini cu miză mare.
Este, de asemenea, remarcabil de greu să faci acest mod vocal inteligent cu API-urile actuale. Practic, trebuie să transcrii vocea într-un model inteligent folosind un instrument și apoi să folosești TTS cu altul, care nu are niciun dus-întors și întrerupabilitatea pe care o poate oferi vocea multimodală completă.
158