Đầu mùa hè này, OpenAI và Anthropic đã đồng ý thử nghiệm một số bài kiểm tra tốt nhất hiện có của chúng tôi về sự không phù hợp trên các mô hình của nhau. Sau khi thảo luận về kết quả của chúng tôi một cách riêng tư, chúng tôi hiện đang chia sẻ chúng với thế giới. 🧵
79,41K