FP16 może mieć mniejszą różnicę między treningiem a wnioskowaniem w porównaniu do BFloat16, dlatego lepiej nadaje się do RL. Nawet różnice między algorytmami RL znikają, gdy przyjęto FP16. Zaskakujące!