1/ 介绍 RL Swarm 的新后端:GenRL。 一个模块化的强化学习库,专为分布式容错训练而构建 - 现在从头开始为 RL Swarm 提供支持。🧵
2/ 每个工作线程运行自己的环境实例,异步贡献共享的推出缓冲区,并独立更新其模型权重,因此不需要中央控制器。
3/ GenRL 允许 RL Swarm 与任何环境一起工作,通过代码直观地描述。 此次发布结合了开箱即用的 Reasoning Gym,无需额外配置即可访问 >100 个社区创建的环境。
4/ 什么是新的: – 模块化 GenRL 后端 – 扩展的配置表面 – 预构建的 Docker 镜像,便于部署 – 推理健身房环境,增强模型推理能力 – 新的多任务群
5/ 现在在 Gensyn 测试网上线。 您现在可以使用 GenRL 运行 RL-Swarm。 完整代码 + 设置:
52.2K