Sebelum rilis Claude Sonnet 4.5, kami melakukan audit kotak putih model, menerapkan teknik interpretabilitas untuk "membaca pikiran model" untuk memvalidasi keandalan dan penyelarasannya. Ini adalah audit pertama semacam itu pada LLM perbatasan, sepengetahuan kami. (1/15)