Qwen-tiimin NeurIPS 2025 -artikkeli: 80/20-säännön lisäksi: korkean entropian vähemmistötokenit edistävät tehokasta vahvistusoppimista LLM-päättelyyn TLDR: GRPO-tyyppisessä RLVR:ssä sinun pitäisi kohdistaa tappio vain 20 % korkeimman entropian tokeneihin. [1/7]