BF16 -> FP16 er en så enkel (en konfigurasjonsendring i Oat), men likevel grunnleggende løsning for inferens-treningsfeil. Med FP16 overgår den mest grunnleggende viktighetssampling PG alle algoritmiske rettelser i BF16. La oss tenke nytt om RL-stabilitet fra presisjonsperspektivet. 🔎