L'environnement d'évaluation Arena-Hard est maintenant fusionné avec Atropos - profitez d'une évaluation évolutive, flexible et moderne avec le benchmark arena-hard de @lmsysorg qui est très efficace pour déterminer un large éventail de capacités des modèles. Prêt à être un environnement RL si vous apportez votre propre ensemble d'entraînement aussi :) En savoir plus sur
6,81K