No início deste verão, a OpenAI e a Anthropic concordaram em testar alguns dos nossos melhores testes existentes para desalinhamento nos modelos uns dos outros. Após discutirmos os nossos resultados em privado, agora estamos compartilhando-os com o mundo. 🧵
79,41K