在LLM自我對弈中,判別器的一個單一行動是「創建一個非常好的強化學習環境」
8.35K