🚀 Stor uppdatering från @grail_ai! Vi har slutfört vår GRPO-implementering! Våra tidiga körningar på GSM8K-datasetet och Qwen/Qwen2.5-1.5B-Instruct-modellen visar att den tränar ordentligt över SN81-huvudnätverket, med onlinebelöningar som stadigt förbättras över tid. Betyg 1/3 🧵