我们能否判断gpt-oss是否在记忆其训练数据?即,它推理与背诵的区别?我们快速查看了20B模型的损失曲面的曲率,以了解记忆化以及推理过程中内部发生的情况。
26.89K