FP16 dapat memiliki celah inferensi pelatihan yang lebih kecil dibandingkan dengan BFloat16, sehingga lebih cocok untuk RL. Bahkan perbedaan antara algoritma RL menghilang setelah FP16 diadopsi. Mengejutkan!