每次我们训练一个新的优秀模型时,我都需要疯狂地尝试写一个模型无法击败的新家庭作业,以便我们在发布后仍然可以招聘。这个很难,许多基于真实问题的草稿在Claude Code的“超思考”面前都失败了,必须被放弃。