Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il fatto che tutti i grandi modelli vocali AI siano alimentati da modelli stupidi, per non parlare di modelli stupidi e servili progettati per avere disfluenze che simulano una conversazione umana ("um"), sottovaluta il valore della voce nella gestione degli agenti.
Una "modalità vocale seria" per il lavoro sarebbe molto utile
Ci sono modelli migliori là fuori: le voci AI sono state un pilastro dei media per la maggior parte di un secolo. E c'è un motivo per cui il computer di Star Trek non ridacchiava, non sospirava, non diceva "um" e non ti diceva quanto fossi fantastico nel bel mezzo di un compito ad alto rischio.
È anche notevolmente difficile realizzare questa modalità vocale intelligente con le API attuali. Devi fondamentalmente trascrivere la voce in un modello intelligente utilizzando uno strumento e poi utilizzare TTS con un altro, il che non ha né il dialogo continuo né l'interruzione che la voce multimodale completa è in grado di gestire.
147
Principali
Ranking
Preferiti
