FP16 kan ha ett mindre gap mellan träning och inferens jämfört med BFloat16, vilket passar bättre för RL. Till och med skillnaden mellan RL-algoritmer försvinner när FP16 antas. Överraskande!
Att träna LLM:er från början till slut är svårt. Jag är mycket glad över att dela med oss av vår nya blogg (bok?) som täcker hela pipelinen: förträning, efterutbildning och infra. 200+ sidor om vad som fungerade, vad som inte fungerade och hur man får det att fungera tillförlitligt