Cada vez que entrenamos un nuevo modelo excelente, necesito intentar frenéticamente escribir un nuevo examen para llevar a casa que el modelo no pueda derrotar, para que aún podamos contratar después del lanzamiento. Este fue difícil, muchos borradores basados en problemas reales cayeron ante el "ultrathink" de Claude Code y tuvieron que ser desechados.