Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ini menghancurkan otak saya.
Sebuah tim di Sea AI Lab baru saja menemukan bahwa sebagian besar kekacauan dalam pelatihan pembelajaran penguatan runtuh, gradien tidak stabil, penyimpangan inferensi tidak disebabkan oleh algoritme sama sekali.
Itu disebabkan oleh presisi numerik.
Format BF16 default, yang digunakan di hampir setiap lab AI modern, memperkenalkan kesalahan pembulatan halus yang membuat model berperilaku berbeda selama pelatihan dan inferensi.
Solusi mereka?
Bukan pengoptimal baru.
Bukan fungsi kerugian baru.
Cukup beralih ke FP16.
Satu baris kode dan semuanya stabil.
✅ Tidak ada runtuhan pelatihan
✅ Konvergensi yang konsisten
✅ +5–10% hasil yang lebih baik
✅ Tidak perlu penyetelan tambahan
Mereka memberi judul "Mengalahkan Ketidakcocokan Pelatihan-Inferensi melalui FP16,"
Tapi itu bisa saja disebut:
"Cara memperbaiki RL dengan membalik satu bit."
Makalah: arxiv. org/abs/2510.26788

Teratas
Peringkat
Favorit

