هذا كسر عقلي. اكتشف فريق في Sea الذكاء الاصطناعي Lab للتو أن معظم الفوضى في انهيار التدريب على التعلم المعزز ، والتدرجات غير المستقرة ، وانجراف الاستدلال لم يكن ناتجا عن الخوارزميات على الإطلاق. كان سببه الدقة العددية. يقدم تنسيق BF16 الافتراضي ، المستخدم في كل مختبر الذكاء الاصطناعي الحديث تقريبا ، أخطاء تقريب دقيقة تجعل النماذج تتصرف بشكل مختلف أثناء التدريب والاستدلال. حلهم؟ ليس محسنا جديدا. ليست وظيفة خسارة جديدة. مجرد التبديل إلى FP16. سطر واحد من التعليمات البرمجية وكل شيء استقر. ✅ لا يوجد انهيار للتدريب ✅ التقارب المتسق ✅ +5-10٪ نتائج أفضل ✅ لا حاجة لضبط إضافي أطلقوا عليها عنوانها "هزيمة عدم تطابق التدريب والاستدلال عبر FP16" ، ولكن كان من الممكن أن يطلق عليه للتو: "كيفية إصلاح RL عن طريق تقليب بت واحد." الورقة: arxiv. org/abs/2510.26788