Jestem przekonany, że spróbuję tego jak najszybciej, wszyscy powinniśmy spróbować fp16, spójrz na ten wykres, człowieku. FP16 jest jak idealne w redukcji błędów. "To właśnie dlatego przejście na FP16 stanowi fundamentalne rozwiązanie. Dzięki 10 bitom mantysy, FP16 oferuje 8 razy większą precyzję (2^10 wartości w porównaniu do 2^7 wartości) niż BF16. Ta wyższa wierność oznacza, że wyniki silników treningowych i wnioskowania są znacznie bardziej prawdopodobne, że będą numerycznie identyczne. Zwiększona precyzja tworzy bufor, który absorbuje drobne różnice w implementacji między dwoma silnikami, zapobiegając akumulacji błędów zaokrągleń i powodowaniu rozbieżności w polityce. W przypadku fine-tuningu RL, dynamiczny zakres wag i aktywacji modelu został już ustalony podczas wstępnego treningu. Dlatego ekstremalny zakres BF16 jest mniej krytyczny, podczas gdy precyzja, którą poświęca, staje się dominującą wadą. Powracając do FP16, wymieniamy niepotrzebny zakres BF16 na krytyczną precyzję, skutecznie zamykając lukę między treningiem a wnioskowaniem bez żadnych skomplikowanych rozwiązań algorytmicznych czy inżynieryjnych."
słowo kluczowe "spróbuj" to, wiele rzeczy może stanąć na przeszkodzie w skalowaniu tego, ale czasami rzeczy działają w ten sposób. Nie ma panaceum, ale czasami łatwe zwycięstwa.
zakładam, że to mocno się różni w zależności od modelu i innych szczegółów implementacji
stając się coraz mniej przekonanym z czasem, po prostu idź i obserwuj @finbarrtimbers
135,29K