Potremmo capire se gpt-oss stava memorizzando i suoi dati di addestramento? Cioè, i punti in cui sta ragionando rispetto a quelli in cui sta recitando? Abbiamo dato un'occhiata veloce alla curvatura del paesaggio della perdita del modello 20B per comprendere la memorizzazione e cosa sta accadendo internamente durante il ragionamento.
28,73K