Чи можемо ми сказати, що gpt-oss запам'ятовує свої тренувальні дані? Тобто, де це міркування чи декламування? Ми швидко розглянули кривизну втрати моделі 20B, щоб зрозуміти запам'ятовування та те, що відбувається всередині під час міркувань
22,7K