我們能否判斷 gpt-oss 是否在記憶其訓練數據?也就是說,哪些地方是它在推理,哪些地方是它在背誦?我們快速查看了 20B 模型的損失景觀的曲率,以了解記憶化以及在推理過程中內部發生了什麼。
15.26K