Qwen ekibinin NeurIPS 2025 makalesi: 80/20 Kuralının Ötesinde: Yüksek Entropili Azınlık Tokenları LLM Gerekçesi İçin Etkili Pekiştirme Öğrenmesini Sağlar Özet: GRPO benzeri RLVR'de kaybı sadece %20 en yüksek entropi tokenlarına uygulamalısın. [1/7]