BF16 -> FP16 es una solución tan simple (un cambio de configuración en Oat) pero fundamental para el desajuste de inferencia-entrenamiento. Con FP16, el muestreo de importancia más básica PG supera todas las correcciones algorítmicas en BF16. Repensemos la estabilidad de RL desde la perspectiva de la precisión. 🔎