Satu analisis dari audit pra-rilis Opus 4.5 kami menonjol bagi saya. Contoh perilaku kami mengungkap contoh penipuan yang jelas oleh model. Dengan menganalisis aktivasi internal, kami mengidentifikasi akar penyebab yang dicurigai, dan kasus perilaku serupa selama pelatihan. (1/7)
Sebelum rilis Claude Sonnet 4.5, kami melakukan audit kotak putih model, menerapkan teknik interpretabilitas untuk "membaca pikiran model" untuk memvalidasi keandalan dan penyelarasannya. Ini adalah audit pertama semacam itu pada LLM perbatasan, sepengetahuan kami. (1/15)