Antes del lanzamiento de Claude Sonnet 4.5, realizamos una auditoría de caja blanca del modelo, aplicando técnicas de interpretabilidad para "leer la mente del modelo" con el fin de validar su fiabilidad y alineación. Esta fue la primera auditoría de este tipo en un LLM de frontera, hasta donde sabemos. (1/15)