從語料庫中建立一個 QA 對,最大化推理者的正確性變異,並讓推理者解決它。這正是一個針對 50% 正確性的遊戲,Noam Brown 提到過 ()。