Estoy convencido de probarlo lo antes posible, todos deberíamos probar fp16, mira este gráfico, amigo. FP16 es como perfecto en la reducción de errores. "Esta es precisamente la razón por la que cambiar a FP16 proporciona una solución fundamental. Con sus 10 bits de mantisa, FP16 ofrece 8 veces más precisión (2^10 valores frente a 2^7 valores) que BF16. Esta mayor fidelidad significa que las salidas de los motores de entrenamiento e inferencia son mucho más propensas a ser numéricamente idénticas. La mayor precisión crea un búfer que absorbe las pequeñas diferencias de implementación entre los dos motores, evitando que los errores de redondeo se acumulen y causen una divergencia de políticas. Para el ajuste fino de RL, el rango dinámico de los pesos y activaciones del modelo ya se ha establecido durante el preentrenamiento. Por lo tanto, el rango extremo de BF16 es menos crítico, mientras que la precisión que sacrifica se convierte en una desventaja dominante. Al volver a FP16, intercambiamos el rango innecesario de BF16 por la precisión crítica, cerrando efectivamente la brecha entre el entrenamiento y la inferencia sin ningún tipo de solución algorítmica o de ingeniería compleja."
palabra clave "intenta" esto, muchas cosas pueden interponerse en el camino de escalar esto, pero a veces las cosas funcionan así. No hay panaceas, pero a veces hay victorias fáciles.
apuesto a que varía mucho según el modelo y otros detalles de implementación
volviéndose menos convencido con el tiempo, solo ve a seguir a @finbarrtimbers
136,46K