Стаття NeurIPS 2025 від команди Qwen: Поза правилом 80/20: Токени меншості з високою ентропією забезпечують ефективне підкріплення навчання для логікування LLM Коротко: у GRPO-подібному RLVR слід застосовувати втрату лише до токенів з найвищою ентропією на 20%. [1/7]