Ini menghancurkan otak saya. Sebuah tim di Sea AI Lab baru saja menemukan bahwa sebagian besar kekacauan dalam pelatihan pembelajaran penguatan runtuh, gradien tidak stabil, penyimpangan inferensi tidak disebabkan oleh algoritme sama sekali. Itu disebabkan oleh presisi numerik. Format BF16 default, yang digunakan di hampir setiap lab AI modern, memperkenalkan kesalahan pembulatan halus yang membuat model berperilaku berbeda selama pelatihan dan inferensi. Solusi mereka? Bukan pengoptimal baru. Bukan fungsi kerugian baru. Cukup beralih ke FP16. Satu baris kode dan semuanya stabil. ✅ Tidak ada runtuhan pelatihan ✅ Konvergensi yang konsisten ✅ +5–10% hasil yang lebih baik ✅ Tidak perlu penyetelan tambahan Mereka memberi judul "Mengalahkan Ketidakcocokan Pelatihan-Inferensi melalui FP16," Tapi itu bisa saja disebut: "Cara memperbaiki RL dengan membalik satu bit." Makalah: arxiv. org/abs/2510.26788