Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atropos v0.3 a fost acum disponibil!
Cadrul nostru RL Environments a cunoscut o mulțime de actualizări de la v0.2 - câteva puncte importante:
- Atropos poate fi acum folosit ca cadru de benchmarking și evaluări de @rogershijin, cu primul nostru benchmark extern, Reward-Bench 2!
- S-a adăugat Reasoning Gym, un depozit de gimnastică de mediu extern portat în atropos cu peste 100 de sarcini de raționament de @neurosp1ke și prieteni
- @max_paperclips bootcamp de raționament integrat @intern_lm, adăugând 1000+ noi sarcini de raționament pentru RL
- @dmayhem93 inginerul șef al Atropos a adăugat zeci de remedieri de erori și alte îmbunătățiri de fiabilitate și compatibilitate, suport mai bun pentru mai multe medii și CI/CD
- Multe dintre mediile hackathon-ului Atropos au fost fuzionate în /environments/community - pentru a le enumera pe toate ar ocupa cea mai mare parte a spațiului de pe ecran, dar câteva puncte importante:
VR-CLI de @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, design de proteine de @hallerite, un mediu de rutare a modelelor de @gabinfay, multiple pe lean proving, arena catbot, pokemon showdown, poker, medici utili, poezie sanscrită de @khoomeik și multe altele!
- Alte medii noi notabile acceptate oficial includ:
Formatul răspunsului urmează mediul
Mediul Pydantic în JSON portat de la @MatternJustus de lucru
Instrucțiuni care urmează portate din munca lui @natolambert și @allen_ai
Numărarea literelor
- 47 de contribuitori noi!
Consultați jurnalul complet de modificări aici:

18 iul. 2025
Tocmai am fuzionat un PR pentru un mediu care să îmbunătățească LLM ca judecător, precum și să evalueze modele în ceea ce privește capacitatea lor de a face judecăți!
Știați că toate mediile RL verificabile sunt aproape echivalente cu benchmark-urile (și invers!)? Așa că am adăugat o comandă de evaluare la baza lui Atropos și acum puteți rula benchmark-uri prin medii Atropos.
Am fost frustrați să lucrăm cu atât de multe cadre de referință care erau învechite sau inutilizabile, așa că am implementat modul de evaluare în Atropos, cadrul nostru de medii RL.
Așa că primul nostru port din afara mediilor noastre existente a fost @natolambert's Reward-Bench!
Notă: acceptă doar modele de recompensă generativă (judecători LLM obișnuiți) în acest moment.
Consultați PR-ul aici:

25,07K
Limită superioară
Clasament
Favorite