Makalah NeurIPS 2025 oleh tim Qwen: Melampaui Aturan 80/20: Token Minoritas Entropi Tinggi Mendorong Pembelajaran Penguatan yang Efektif untuk Penalaran LLM TLDR: di RLVR seperti GRPO Anda harus menerapkan kerugian hanya pada token entropi tertinggi 20%. [1/7]