🚀 Großes Update von @grail_ai! Wir haben unsere GRPO-Implementierung abgeschlossen! Unsere ersten Durchläufe mit dem GSM8K-Datensatz und dem Qwen/Qwen2.5-1.5B-Instruct-Modell zeigen, dass es ordnungsgemäß über das SN81-Hauptnetzwerk trainiert, wobei die Online-Belohnungen im Laufe der Zeit stetig zunehmen. 1/3 🧵