BF16 -> FP16 to tak prosta (jedna zmiana konfiguracji w Oat) a zarazem fundamentalna poprawka dla niedopasowania między inferencją a treningiem. Z FP16, najprostsze podstawowe próbkowanie ważone PG przewyższa wszystkie algorytmiczne poprawki w BF16. Przemyślmy stabilność RL z perspektywy precyzji.🔎