🚀 Mare actualizare de la @grail_ai! Am finalizat implementarea GRPO! Primele noastre rulări pe setul de date GSM8K și modelul Qwen/Qwen2.5-1.5B-Instruct arată că se antrenează corect în rețeaua principală SN81, recompensele online îmbunătățindu-se constant în timp. 1/3 🧵