🚀 ¡Gran actualización de @grail_ai! ¡Hemos completado nuestra implementación de GRPO! Nuestras primeras ejecuciones en el conjunto de datos GSM8K y el modelo Qwen/Qwen2.5-1.5B-Instruct muestran que se está entrenando correctamente sobre la red principal SN81, con recompensas en línea mejorando constantemente con el tiempo. 1/3 🧵