Prima del rilascio di Claude Sonnet 4.5, abbiamo condotto un audit white-box del modello, applicando tecniche di interpretabilità per "leggere la mente del modello" al fine di convalidarne l'affidabilità e l'allineamento. Questo è stato il primo audit di questo tipo su un LLM di frontiera, per quanto ne sappiamo. (1/15)