Jag är övertygad om att prova det så fort som möjligt, vi borde alla prova fp16, titta på den här tomten mannen. FP16 är som perfekt i felreducering. – Det är just därför som ett byte till FP16 är en grundläggande lösning. Med sina 10 mantissa-bitar erbjuder FP16 8 gånger mer precision (2^10 värden mot 2^7 värden) än BF16. Denna högre återgivning innebär att utdata från tränings- och slutsatsdragningsmotorerna är mycket mer sannolika att vara numeriskt identiska. Den ökade precisionen skapar en buffert som absorberar de mindre implementeringsskillnaderna mellan de två motorerna, vilket förhindrar att avrundningsfel ackumuleras och orsakar en principavvikelse. För RL-finjustering har det dynamiska omfånget för modellens vikter och aktiveringar redan fastställts under förträningen. Därför är den extrema räckvidden hos BF16 mindre kritisk, medan precisionen den offrar blir en dominerande nackdel. Genom att återgå till FP16 byter vi ut det onödiga intervallet i BF16 mot den kritiska precisionen, vilket effektivt minskar gapet mellan träning och inferens utan någon komplex algoritmisk eller teknisk lösning."
nyckelordet "prova" det, många saker kan komma i vägen för att skala detta, men ibland fungerar det så här. Inga patentlösningar, men ibland enkla vinster.
Jag slår vad om att det varierar kraftigt beroende på modell och andra impl-detaljer
Blir mindre övertygad med tiden, gå bara och följ @finbarrtimbers
136,45K