1/ Apresentamos o novo backend do RL Swarm: GenRL. Uma biblioteca modular de aprendizagem por reforço construída para treinamento distribuído e tolerante a falhas - agora alimentando o RL Swarm desde o início. 🧵
2/ Cada trabalhador executa sua própria instância de ambiente, contribui de forma assíncrona para um buffer de distribuição compartilhado e atualiza seus pesos de modelo independentemente, portanto, nenhum controlador central é necessário.
3/ O GenRL permite que o RL Swarm trabalhe com qualquer ambiente, descrito intuitivamente através de código. Este lançamento incorpora o Reasoning Gym pronto para uso, dando acesso a >100 ambientes criados pela comunidade sem necessidade de configuração extra.
4/ Novidades: – Backend GenRL modular – Superfície de configuração expandida – Imagem do Docker pré-construída para fácil implementação – Ambiente de Raciocínio Gym para melhorar as capacidades de raciocínio do modelo – Novo enxame multi-tarefa
5/ Agora ao vivo no testnet Gensyn. Você pode executar o RL-Swarm com o GenRL hoje. Código completo + configuração:
52,21K