🚀 Pembaruan Besar dari @grail_ai! Kami telah menyelesaikan implementasi GRPO kami! Eksekusi awal kami pada kumpulan data GSM8K dan model Qwen/Qwen2.5-1.5B-Instruct menunjukkan bahwa ia berlatih dengan benar melalui jaringan utama SN81, dengan hadiah online terus meningkat dari waktu ke waktu. 1/3 🧵