Ogni volta che alleniamo un nuovo grande modello, devo cercare freneticamente di scrivere un nuovo compito a casa che il modello non possa sconfiggere, così possiamo ancora assumere dopo il rilascio. Questo è stato difficile, molte bozze basate su problemi reali sono cadute di fronte all'"ultrathink" di Claude Code e hanno dovuto essere scartate.