Artículo súper interesante. Si una IA desalineada genera una cadena aleatoria de números y otra IA se ajusta a esos números, la otra IA se desalinea. Pero solo si ambas IA parten del mismo modelo base. Esto tiene consecuencias para prevenir lealtades secretas: - Si un empleado ajusta GPT-5 para que sea secretamente leal a ellos, podría generar datos aparentemente inocuos y ajustar todas las demás copias de GPT-5 para que sean secretamente leales (por ejemplo, insertando los datos en una capacitación posterior adicional) - PERO esta técnica no funcionaría para hacer que GPT-6 sea secretamente leal de la misma manera (Dudo que esta técnica realmente funcione para smg tan complejo como una lealtad secreta sofisticada, pero esa es la implicación del patrón aquí si he entendido correctamente)
Owain Evans
Owain Evans23 jul 2025
Nuevo papel y resultado sorprendente. Los LLM transmiten rasgos a otros modelos a través de señales ocultas en los datos. Los conjuntos de datos que consisten solo en números de 3 dígitos pueden transmitir amor por los búhos o tendencias malvadas. 🧵
5.19K