FP16 może mieć mniejszą różnicę między treningiem a wnioskowaniem w porównaniu do BFloat16, dlatego lepiej nadaje się do RL. Nawet różnice między algorytmami RL znikają, gdy przyjęto FP16. Zaskakujące!
Szkolenie LLM od początku do końca jest trudne. Bardzo się cieszę, że mogę podzielić się naszym nowym blogiem (książką?), który obejmuje cały proces: wstępne szkolenie, szkolenie po, oraz infrastrukturę. Ponad 200 stron tego, co zadziałało, co nie, i jak sprawić, by działało niezawodnie