BF16 -> FP16 je tak jednoduchá (jedna změna konfigurace v Oat), ale zásadní oprava nesouladu mezi inferencí a trénováním. U FP16 nejzákladnější vzorkování důležitosti PG překonává všechny algoritmické opravy v BF16. Přehodnoťme stabilitu RL z hlediska přesnosti. 🔎