A principios de este verano, OpenAI y Anthropic acordaron probar algunas de nuestras mejores pruebas existentes para desalineación en los modelos de los demás. Después de discutir nuestros resultados en privado, ahora los estamos compartiendo con el mundo. 🧵
79,41K