Artigo da NeurIPS 2025 pela equipe Qwen: Além da Regra 80/20: Tokens Minoritários de Alta Entropia Impulsionam o Aprendizado por Reforço Eficaz para o Raciocínio de LLM TLDR: em RLVR semelhante ao GRPO, você deve aplicar a perda apenas aos 20% de tokens de maior entropia. [1/7]