För att tänja på gränsen för öppen källkod för RL + LLM:er behöver vi skalbara, modulära miljöer med verklig komplexitet, bortom matematiska riktmärken. Idag släpper vi *benchmax*. Ett ramverk med öppen källkod för att bygga, köra och skala användbara RL-miljöer för LLM-finjustering, med integrationer till verl och verifierare (mer kommer snart!).
10,71K