NeurIPS 2025-Papier des Qwen-Teams: Über die 80/20-Regel hinaus: Hoch-Entropie-Minderheitstoken treiben effektives Reinforcement Learning für LLM-Reasoning TLDR: In GRPO-ähnlichem RLVR sollten Sie den Verlust nur auf die 20 % der Token mit der höchsten Entropie anwenden. [1/7]