🚀 Grande atualização de @grail_ai! Concluímos nossa implementação do GRPO! Nossas primeiras execuções no conjunto de dados GSM8K e no modelo Qwen/Qwen2.5-1.5B-Instruct mostram que ele está treinando adequadamente na rede principal SN81, com recompensas online melhorando constantemente ao longo do tempo. 1/3 🧵