🚀 来自@grail_ai 的重大更新!我们已经完成了GRPO的实施! 我们在GSM8K数据集和Qwen/Qwen2.5-1.5B-Instruct模型上的早期运行表明,它在SN81主网络上正确训练,在线奖励随着时间的推移稳步提高。 1/3 🧵