🚀 @grail_ai 的重大更新!我們已經完成了 GRPO 實施! 我們在 GSM8K 數據集和 Qwen/Qwen2.5-1.5B-Instruct 模型上的早期運行顯示,它在 SN81 主網絡上正確訓練,隨著時間的推移,線上獎勵穩步提高。 1/3 🧵