Artículo de NeurIPS 2025 del equipo Qwen: Más allá de la regla 80/20: los tokens minoritarios de alta entropía impulsan un aprendizaje por refuerzo efectivo para el razonamiento de LLM Resumen: en RLVR tipo GRPO deberías aplicar la pérdida solo a los tokens de mayor entropía, el 20%. [1/7]