Bisakah kita tahu apakah gpt-oss menghafal data pelatihannya? Yaitu, poin di mana penalaran vs pembacaan? Kami melihat sekilas kelengkungan lanskap kehilangan model 20B untuk memahami hafalan dan apa yang terjadi secara internal selama penalaran
28,74K