Asta mi-a rupt creierul. O echipă de la Sea AI Lab tocmai a descoperit că cea mai mare parte a haosului din antrenamentul de învățare prin întărire, prăbușirea gradientelor instabile, deriva inferenței nu a fost cauzată deloc de algoritmi. A fost cauzată de precizia numerică. Formatul implicit BF16, utilizat în aproape toate laboratoarele moderne de inteligență artificială, introduce erori subtile de rotunjire care fac ca modelele să se comporte diferit în timpul antrenamentului și inferenței. Soluția lor? Nu este un optimizator nou. Nu este o nouă funcție de pierdere. Doar trecerea la FP16. O linie de cod și totul s-a stabilizat. ✅ Fără colaps de antrenament ✅ Convergență consecventă ✅ Rezultate +5-10% mai bune ✅ Nu este nevoie de reglare suplimentară Ei l-au intitulat "Învingerea nepotrivirii antrenament-inferență prin FP16", Dar ar fi putut fi numit doar: "Cum să remediați RL răsturnând un singur bit." Lucrare: arxiv. org/abs/2510.26788