🚀 Iso päivitys @grail_ai! Olemme saaneet GRPO-toteutuksen valmiiksi! Varhaiset ajomme GSM8K-tietojoukolla ja Qwen/Qwen2.5-1.5B-Instruct-mallilla osoittavat, että se harjoittelee kunnolla SN81-pääverkossa, ja online-palkinnot paranevat tasaisesti ajan myötä. 1/3 🧵