Dos parámetros interesantes en mis interacciones con humanos y LLM son la cohesión y la generalidad. La cohesión describe qué tan estables son las políticas y creencias cuando las impulsas, la generalidad describe qué tan bien se pueden integrar nuevos observables, hechos e ideas.
Algunas personas son más cohesivas y/o generales que otras. Si pones a las personas en privación sensorial o en entornos de culto, tienden a descarrilarse a diferentes ritmos y velocidades, evidentes por alucinaciones y cambios de política irracionales.
¿Podemos construir un punto de referencia de coherencia que compare directamente la cohesión y la generalidad de los humanos y los LLM? La "psicosis de LLM" describe una situación en la que el LLM está más cohesionado que el interlocutor humano, por lo que el humano se descarrila. "Jailbreaking" es lo contrario.
5.13K