🚀 Velká aktualizace od @grail_ai! Dokončili jsme implementaci GRPO! Naše první pokusy s datovou sadou GSM8K a modelem Qwen/Qwen2.5-1.5B-Instruct ukazují, že se přes hlavní síť SN81 trénuje správně, přičemž online odměny se v průběhu času neustále zlepšují. 1/3 🧵