BF16 -> FP16 ist eine so einfache (eine Konfigurationsänderung in Oat) und doch grundlegende Lösung für das Missverhältnis zwischen Inferenz und Training. Mit FP16 übertrifft das grundlegendste Importance Sampling PG alle algorithmischen Lösungen in BF16. Lassen Sie uns die Stabilität von RL aus der Perspektive der Präzision neu überdenken.🔎