🚀 Grande aggiornamento da @grail_ai! Abbiamo completato la nostra implementazione del GRPO! Le nostre prime esecuzioni sul dataset GSM8K e sul modello Qwen/Qwen2.5-1.5B-Instruct mostrano che si sta addestrando correttamente sulla rete principale SN81, con ricompense online che migliorano costantemente nel tempo. 1/3 🧵