A principios de este verano, OpenAI y Anthropic acordaron probar algunas de nuestras mejores pruebas existentes para detectar la desalineación en los modelos de cada uno. Después de discutir nuestros resultados en privado, ahora los compartimos con el mundo. 🧵
79.43K