Článek NeurIPS 2025 od týmu Qwen: Nad rámec pravidla 80/20: Menšinové tokeny s vysokou entropií podporují efektivní posilované učení pro LLM uvažování Stručně: v RLVR podobném GRPO byste měli ztrátu aplikovat pouze na tokeny s nejvyšší entropií o 20 %. [1/7]