Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Asta mi-a rupt creierul.
O echipă de la Sea AI Lab tocmai a descoperit că cea mai mare parte a haosului din antrenamentul de învățare prin întărire, prăbușirea gradientelor instabile, deriva inferenței nu a fost cauzată deloc de algoritmi.
A fost cauzată de precizia numerică.
Formatul implicit BF16, utilizat în aproape toate laboratoarele moderne de inteligență artificială, introduce erori subtile de rotunjire care fac ca modelele să se comporte diferit în timpul antrenamentului și inferenței.
Soluția lor?
Nu este un optimizator nou.
Nu este o nouă funcție de pierdere.
Doar trecerea la FP16.
O linie de cod și totul s-a stabilizat.
✅ Fără colaps de antrenament
✅ Convergență consecventă
✅ Rezultate +5-10% mai bune
✅ Nu este nevoie de reglare suplimentară
Ei l-au intitulat "Învingerea nepotrivirii antrenament-inferență prin FP16",
Dar ar fi putut fi numit doar:
"Cum să remediați RL răsturnând un singur bit."
Lucrare: arxiv. org/abs/2510.26788

Limită superioară
Clasament
Favorite

