Voor de release van Claude Sonnet 4.5 hebben we een white-box audit van het model uitgevoerd, waarbij we interpretatietechnieken toepasten om de "gedachten van het model te lezen" om de betrouwbaarheid en afstemming te valideren. Dit was naar onze kennis de eerste dergelijke audit van een grensverleggend LLM. (1/15)