Arena-Hard-evalueringsmiljøet er nå slått sammen med Atropos - nyt skalerbar, fleksibel og moderne evaluering med @lmsysorg arena-hard benchmark som er veldig god til å bestemme et bredt spekter av evner i modeller. Klar til å være et RL-miljø hvis du også tar med ditt eget togsett :) Finn ut mer på
6,8K