Jedes Mal, wenn wir ein großartiges neues Modell trainieren, muss ich verzweifelt versuchen, eine neue Take-Home-Aufgabe zu schreiben, die das Modell nicht besiegen kann, damit wir auch nach der Veröffentlichung einstellen können. Diese war schwierig, viele Entwürfe, die auf realen Problemen basierten, fielen vor Claude Codes "Ultrathink" und mussten verworfen werden.