Dois parâmetros interessantes nas minhas interações com humanos e LLMs são coesão e generalidade. Coesão descreve quão estáveis são as políticas e crenças quando você as pressiona, generalidade descreve quão bem novos observáveis, fatos e ideias podem ser integrados.
Algumas pessoas são mais coesas e/ou gerais do que outras. Se você colocar pessoas em privação sensorial ou em ambientes de culto, elas tendem a sair dos trilhos em diferentes ritmos e velocidades, evidente por alucinações e mudanças de políticas irracionais.
Podemos construir um benchmark de coerência que compare diretamente a coesão e a generalidade dos humanos e dos LLMs? "Psicose de LLM" descreve uma situação em que o LLM é mais coeso do que o interlocutor humano, fazendo com que o humano se desvie. "Jailbreaking" é o oposto.
4,86K