NeurIPS 2025 由 Qwen 團隊發表的論文: 超越 80/20 法則:高熵少數代幣驅動 LLM 推理的有效強化學習 TLDR:在類似 GRPO 的 RLVR 中,您應該僅對 20% 最高熵的代幣應用損失。 [1/7]