NeurIPS 2025-artikel av Qwen-teamet: Bortom 80/20-regeln: hög-entropi minoritetstokens driver effektivt förstärkningslärande för LLM-resonemang TLDR: i GRPO-liknande RLVR bör du bara applicera förlusten på de 20% högsta entropitokens. [1/7]