ورقة NeurIPS 2025 التي أجراها فريق Qwen: ما وراء قاعدة 80/20: رموز الأقلية عالية الإنتروبيا تدفع التعلم المعزز الفعال لأسباب نماذج اللغة الكبيرة ملخص: في RLVR المشابه ل GRPO يجب أن تطبق الخسارة فقط على أعلى 20٪ من رموز الإنتروبيا. [1/7]