🚀 Велике оновлення від @grail_ai! Ми завершили впровадження GRPO! Наші ранні запуски на наборі даних GSM8K і моделі Qwen/Qwen2.5-1.5B-Instruct показують, що він належним чином тренується в основній мережі SN81, а онлайн-винагороди з часом неухильно вдосконалюються. 1/3 🧵