El entorno de evaluación Arena-Hard ahora se ha fusionado con Atropos: disfruta de una evaluación escalable, flexible y moderna con el benchmark arena-hard de @lmsysorg, que es excelente para determinar una amplia gama de capacidades en los modelos. Listo para ser un entorno de RL si traes tu propio conjunto de entrenamiento también :) Aprende más en
6,81K