BF16 -> FP16 on niin yksinkertainen (yksi konfiguraatiomuutos Oatissa), mutta perustavanlaatuinen korjaus päättelyharjoittelun yhteensopimattomuuteen. FP16:ssa perustärkeysnäytteenotto PG päihittää kaikki BF16:n algoritmiset korjaukset. Tarkastellaan RL-vakautta uudelleen tarkkuuden näkökulmasta. 🔎