🚀 Grote update van @grail_ai! We hebben onze GRPO-implementatie voltooid! Onze vroege runs op de GSM8K-dataset en het Qwen/Qwen2.5-1.5B-Instruct-model tonen aan dat het goed traint over het SN81-hoofdn netwerk, met online beloningen die in de loop van de tijd gestaag verbeteren. 1/3 🧵