Naturalna rozmowa obejmuje przerwy i mówienie jednocześnie, co jest trudne do modelowania dla LLM jako pojedynczej sekwencji autoregresywnej. Jestem pewien, że można osiągnąć sporo, tworząc sekwencję tekstową z przerwami w stylu scenariusza filmowego w trakcie zdania, ale wydaje się, że prawdziwe rozwiązanie wymagałoby równoległych strumieni słuchania i myślenia, z mówieniem w kolejce na przerwy lub w przypadku priorytetu przerwania. Mieszanie tokenów z różnych strumieni i robienie czegoś niestandardowego z uwagą wydaje się wykonalne.
178,09K