¿Podríamos decir si gpt-oss estaba memorizando sus datos de entrenamiento? Es decir, puntos donde está razonando frente a recitando. Echamos un vistazo rápido a la curvatura del paisaje de pérdida del modelo de 20B para entender la memorización y lo que está sucediendo internamente durante el razonamiento.
22.7K