Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je suis convaincu d'essayer ça dès que possible, nous devrions tous essayer fp16, regarde ce graphique mec. FP16 est comme parfait en réduction d'erreur.
"C'est précisément pourquoi passer à FP16 fournit une solution fondamentale. Avec ses 10 bits de mantisse, FP16 offre 8 fois plus de précision (2^10 valeurs contre 2^7 valeurs) que BF16. Cette fidélité accrue signifie que les sorties des moteurs d'entraînement et d'inférence sont beaucoup plus susceptibles d'être numériquement identiques. L'augmentation de la précision crée un tampon qui absorbe les petites différences d'implémentation entre les deux moteurs, empêchant les erreurs d'arrondi de s'accumuler et de provoquer une divergence de politique.
Pour le fine-tuning RL, la plage dynamique des poids et des activations du modèle a déjà été établie lors de la pré-formation. Par conséquent, la plage extrême de BF16 est moins critique, tandis que la précision qu'il sacrifie devient un inconvénient dominant. En revenant à FP16, nous échangeons la plage inutile de BF16 contre la précision critique, fermant ainsi l'écart entre l'entraînement et l'inférence sans aucune solution algorithmique ou d'ingénierie complexe."

mot clé "essayer" cela, beaucoup de choses peuvent entraver l'évolutivité de cela, mais parfois les choses fonctionnent comme ça. Pas de panacées, mais parfois des victoires faciles.
je parie que cela varie fortement selon le modèle et d'autres détails d'implémentation
devenant de moins en moins convaincu avec le temps, il suffit de suivre @finbarrtimbers
136,46K
Meilleurs
Classement
Favoris

