BF16 -> FP16 是一個如此簡單(在 Oat 中只需更改一個配置)但對於推理與訓練不匹配來說卻是根本性的修正。 使用 FP16,最基本的重要性取樣 PG 超越了 BF16 中所有的算法修正。讓我們從精度的角度重新思考 RL 穩定性。🔎