Au début de cet été, OpenAI et Anthropic ont convenu d'essayer certains de nos meilleurs tests existants pour le désalignement sur les modèles de l'autre. Après avoir discuté de nos résultats en privé, nous les partageons maintenant avec le monde. 🧵
79,43K