Chúng ta có thể biết liệu gpt-oss có đang ghi nhớ dữ liệu huấn luyện của nó không? Tức là, những điểm mà nó đang suy luận so với việc nhắc lại? Chúng tôi đã xem qua độ cong của bề mặt mất mát của mô hình 20B để hiểu về việc ghi nhớ và những gì đang xảy ra bên trong trong quá trình suy luận.
26,89K