🚀 Wielka aktualizacja od @grail_ai! Zakończyliśmy naszą implementację GRPO! Nasze wczesne testy na zbiorze danych GSM8K oraz modelu Qwen/Qwen2.5-1.5B-Instruct pokazują, że trening przebiega prawidłowo w sieci głównej SN81, a nagrody online systematycznie się poprawiają w czasie. 1/3 🧵