Artigo do NeurIPS 2025 pela equipe Qwen: Além da Regra 80/20: Tokens de minoria de alta entropia impulsionam aprendizado por reforço eficaz para raciocínio LLM Resumindo: em RLVR tipo GRPO, você deve aplicar a perda apenas aos tokens de entropia de 20% mais altos. [1/7]