BF16 -> FP16 — это такое простое (одно изменение конфигурации в Oat), но фундаментальное решение для несоответствия между инференсом и обучением. С FP16 самый базовый метод важностного отбора PG превосходит все алгоритмические исправления в BF16. Давайте пересмотрим стабильность RL с точки зрения точности.🔎