BF16 -> FP16 є таким простим (одна зміна конфігурації в Oat), але фундаментальним виправленням невідповідності висновків і тренувань. У FP16 дискретизація основної важливості PG перевершує всі алгоритмічні виправлення в BF16. Давайте переосмислимо стабільність RL з точки зору точності. 🔎