FP16 có thể có khoảng cách huấn luyện - suy diễn nhỏ hơn so với BFloat16, do đó phù hợp hơn cho RL. Ngay cả sự khác biệt giữa các thuật toán RL cũng biến mất khi FP16 được áp dụng. Thật bất ngờ!