NeurIPS 2025-artikkel av Qwen-teamet: Utover 80/20-regelen: Høy-entropi minoritetstokens driver effektiv forsterkningslæring for LLM-resonnement Kort oppsummert: i GRPO-lignende RLVR bør du kun bruke tapet på de 20 % høyeste entropi-tokenene. [1/7]