No início deste verão, a OpenAI e a Anthropic concordaram em experimentar alguns de nossos melhores testes existentes para desalinhamento nos modelos um do outro. Depois de discutir nossos resultados em particular, agora estamos compartilhando-os com o mundo. 🧵
79,41K