O ambiente de avaliação Arena-Hard agora está mesclado ao Atropos - desfrute de uma avaliação escalável, flexível e moderna com o benchmark arena-hard do @lmsysorg, que é muito bom para determinar uma ampla gama de recursos em modelos. Pronto para ser um ambiente RL se você trouxer seu próprio conjunto de trem também :) Saiba mais em
6,81K