Arena-Hard 評估環境現在已經合併到 Atropos - 享受 @lmsysorg 的 arena-hard 基準帶來的可擴展、靈活和現代化的評估,這對於確定模型的各種能力非常出色。 如果你帶上自己的訓練集,隨時可以成為 RL 環境 :) 了解更多資訊在
6.8K