Articolo NeurIPS 2025 del team Qwen: Oltre alla regola 80/20: i token di minoranza ad alta entropia guidano un apprendimento per rinforzo efficace per il ragionamento LLM TLDR: nel RLVR simile a GRPO dovresti applicare la perdita solo ai token con il 20% di entropia più alta. [1/7]