Pentru a împinge frontiera open source pentru RL + LLM-uri, avem nevoie de medii scalabile, modulare, cu complexitate reală, dincolo de benchmark-urile matematice. Astăzi, lansăm *benchmax*. Un cadru open-source pentru a construi, rula și scala medii RL utile pentru reglarea fină a LLM, cu integrări cu verl și verificatori (mai multe în curând!).
10,67K