Arena-Hard 评估环境现已合并到 Atropos - 享受 @lmsysorg 的 arena-hard 基准带来的可扩展、灵活和现代的评估,它非常擅长确定模型的广泛能力。 如果您带上自己的训练集,它也准备好成为一个 RL 环境 :) 了解更多信息请访问
6.81K