هل يمكننا معرفة ما إذا كان gpt-oss يحفظ بيانات التدريب الخاصة به؟ أي النقاط التي يكون فيها التفكير مقابل التلاوة؟ ألقينا نظرة سريعة على انحناء مشهد الخسارة لنموذج 20B لفهم الحفظ وما يحدث داخليا أثناء التفكير
‏‎26.89‏K