BF16 -> FP16 is zo'n eenvoudige (één configuratiewijziging in Oat) maar fundamentele oplossing voor de mismatch tussen inferentie en training. Met FP16 presteert de meest basale importance sampling PG beter dan alle algoritmische oplossingen in BF16. Laten we de stabiliteit van RL heroverwegen vanuit het perspectief van precisie.🔎