Mỗi khi chúng tôi huấn luyện một mô hình mới tuyệt vời, tôi cần phải cố gắng viết một bài kiểm tra về nhà mới mà mô hình không thể đánh bại để chúng tôi vẫn có thể tuyển dụng sau khi phát hành. Cái này thật khó, nhiều bản nháp dựa trên các vấn đề thực tế đã thất bại trước "ultrathink" của Claude Code và cần phải bị loại bỏ.