O ambiente de avaliação Arena-Hard foi agora integrado ao Atropos - desfrute de uma avaliação escalável, flexível e moderna com o benchmark arena-hard da @lmsysorg, que é excelente para determinar uma ampla gama de capacidades em modelos. Pronto para ser um ambiente RL se você trouxer seu próprio conjunto de treino também :) Saiba mais em
6,81K