🚀 @grail_aiからのビッグアップデート!GRPOの実装は完了しました! GSM8K データセットと Qwen/Qwen2.5-1.5B-Instruct モデルでの初期の実行では、SN81 メイン ネットワーク上で適切にトレーニングされており、オンライン報酬は時間の経過とともに着実に向上していることが示されています。 1/3 🧵