Ok untuk tidak menjadi pembenci, tetapi kertas penskalaan RL $4.2 juta tampaknya agak berlebihan untuk apa adanya? Sedikit oleh koran itu sendiri, terlebih lagi oleh pemburu twitter.
Dari pembacaan awal, sepertinya serangkaian penyesuaian lain untuk GRPO, kecuali kali ini dilatih pada anggaran komputasi yang berbeda, tetapi - yang terpenting - hanya pada model yang relatif kecil (Llama 3 8B, dan Llama 4 Scout), dan satu kumpulan data yang 100% pertanyaan matematika.
Kebaruan utama adalah bahwa mereka memasang kurva ke grafik hadiah yang, uh, keren saya kira?
Ceri di atas adalah repositori kode yang merupakan salah satu file yang berpusat di sekitar 'dari scipy.optimize impor curve_fit'
Saya mendukung penelitian RL yang lebih berprinsip, tetapi Anda hampir tidak dapat memproklamirkan hukum penskalaan dalam satu pengaturan, ketika env pelatihan RL bisa dibilang lebih beragam daripada kumpulan data prapelatihan. Ditambah saya masih memiliki kecurigaan menyelinap (dan tidak ada anggaran untuk memverifikasi) bahwa RL pada model besar (>100B?) adalah binatang buas yang berbeda secara kualitatif daripada pada model kecil.
Hal yang hebat tentang hukum penskalaan LLM adalah bahwa untuk anggaran tertentu, Anda dapat memperkirakan beberapa hiperparameter secara apriori, menghemat tebakan hiperparameter. Saya berjuang untuk menemukan wawasan yang serupa di sini.
Tapi hei, itu menggunakan 400k jam GPU.