🚀 Stor oppdatering fra @grail_ai! Vi har fullført GRPO-implementeringen vår! Våre tidlige kjøringer på GSM8K-datasettet og Qwen/Qwen2.5-1.5B-Instruct-modellen viser at den trener riktig over SN81-hovednettverket, med online-belønninger som stadig forbedres over tid. 1/3 🧵