O Atropos v0.3 já está disponível! Nossa estrutura de ambientes RL passou por muitas atualizações desde a v0.2 - alguns destaques: - O Atropos agora pode ser usado como uma estrutura de benchmarking e avaliações pela @rogershijin, com nosso primeiro benchmark externo, Reward-Bench 2! - Adicionado o Reasoning Gym, um repositório de ginásio de ambiente externo portado para átropos com mais de 100 tarefas de raciocínio de @neurosp1ke e amigos - @max_paperclips integrou o bootcamp de raciocínio do @intern_lm, adicionando 1000+ novas tarefas de raciocínio para RL - @dmayhem93 o engenheiro-chefe da Atropos adicionou dezenas de correções de bugs e outras melhorias de confiabilidade e compatibilidade, melhor suporte para vários ambientes e CI/CD - Muitos dos ambientes de hackathon de Átropos foram mesclados em /environments/community - listá-los todos ocuparia a maior parte do espaço da tela, mas alguns destaques: VR-CLI por @JakeABoggs, Filosofia RLAIF, Professores de LLM Adaptativo, WebVoyager, design de proteínas por @hallerite, um ambiente de roteamento de modelo por @gabinfay, vários em lean proving, a arena catbot, confronto de pokémon, pôquer, médicos prestativos, poesia sânscrita de @khoomeik e muito mais! - Outros novos ambientes com suporte oficial notáveis incluem: Formato de resposta seguindo o ambiente Ambiente Pydantic para JSON portado do trabalho @MatternJustus Instruções a seguir portadas do trabalho de @natolambert e @allen_ai Contagem de letras - 47 novos colaboradores! Confira o changelog completo aqui:
Teknium (e/λ)
Teknium (e/λ)18 de jul. de 2025
Acabei de fundir um PR para um ambiente para melhorar o LLM como juiz, bem como avaliar os modelos em sua capacidade de fazer julgamentos! Você sabia que todos os ambientes de RL verificáveis são quase equivalentes a benchmarks (e vice-versa!)? Por isso, adicionamos um comando evaluate à base do Átropos e agora você pode executar benchmarks em ambientes Átropos. Ficamos frustrados em trabalhar com tantos frameworks de benchmark que estavam desatualizados ou inutilizáveis, então implementamos o modo somente avaliação no Atropos, nosso framework de ambientes RL. Portanto, nossa primeira porta de fora de nossos ambientes existentes foi o Banco de Recompensas do @natolambert! Nota: ele suporta apenas modelos de recompensa generativa (LLM Judges regulares) no momento. Confira o PR aqui:
25,08K