在Claude Sonnet 4.5发布之前,我们对该模型进行了白盒审计,应用可解释性技术来“读取模型的思维”,以验证其可靠性和一致性。据我们所知,这是对前沿LLM进行的第一次此类审计。(1/15)