NeurIPS 2025 paper van het Qwen-team: Voorbij de 80/20-regel: Hoge-entropie minderheidstokens stimuleren effectieve versterkingsleren voor LLM-redenering TLDR: in GRPO-achtige RLVR moet je het verlies alleen toepassen op de 20% hoogste entropietokens. [1/7]