Uma conversa natural inclui interrupções e falar por cima das pessoas, o que é difícil para um LLM modelar como uma única sequência autoregressiva. Tenho certeza de que você pode avançar bastante criando uma sequência de texto com quebras semelhantes a roteiros de filmes no meio da frase, mas parece que a verdadeira solução envolveria fluxos paralelos de escuta e pensamento, com a fala enfileirada para pausas ou subindo para uma prioridade de interrupção. Misturar tokens de diferentes fluxos e fazer algo personalizado com a atenção parece plausível.
178,1K