🚀 Cập nhật lớn từ @grail_ai! Chúng tôi đã hoàn thành việc triển khai GRPO của mình! Các lần chạy sớm của chúng tôi trên tập dữ liệu GSM8K và mô hình Qwen/Qwen2.5-1.5B-Instruct cho thấy nó đang được đào tạo đúng cách trên mạng chính SN81, với phần thưởng trực tuyến ngày càng cải thiện theo thời gian. 1/3 🧵