Можем ли мы определить, запоминает ли gpt-oss свои обучающие данные? То есть, моменты, когда он рассуждает, а не просто повторяет? Мы быстро взглянули на кривизну ландшафта потерь модели 20B, чтобы понять запоминание и то, что происходит внутри во время рассуждения.
26,89K