BF16 -> FP16 este o soluție atât de simplă (o schimbare de configurație în Oat), dar fundamentală pentru nepotrivirea inferențe-antrenament. Cu FP16, cea mai importantă eșantionare PG depășește toate remedierile algoritmice din BF16. Să regândim stabilitatea RL din perspectiva preciziei. 🔎