A conversa natural inclui interrupções e conversas sobre pessoas, o que é difícil para um LLM modelar como uma única sequência autorregressiva. Tenho certeza de que você pode ir muito longe criando uma sequência de texto com pausas no meio da frase, mas parece que a solução real envolveria fluxos paralelos de ouvir e pensar com conversas enfileiradas para pausas ou subindo para uma prioridade de interrupção. Misturar tokens de diferentes fluxos e fazer algo personalizado com atenção parece plausível.
178,11K