Cada vez que treinamos um novo modelo incrível, preciso tentar freneticamente escrever um novo teste para casa que o modelo não consiga derrotar, para que ainda possamos contratar após o lançamento. Este foi difícil, muitos rascunhos baseados em problemas reais caíram diante do "ultrathink" do Claude Code e precisaram ser descartados.