Этим летом OpenAI и Anthropic согласились протестировать некоторые из наших лучших существующих тестов на несоответствие на моделях друг друга. После обсуждения наших результатов в частном порядке, мы теперь делимся ими с миром. 🧵
79,41K