FP16 kan ha ett mindre gap mellan träning och inferens jämfört med BFloat16, vilket passar bättre för RL. Till och med skillnaden mellan RL-algoritmer försvinner när FP16 antas. Överraskande!