Bài báo NeurIPS 2025 của nhóm Qwen: Vượt ra ngoài quy tắc 80/20: Các token thiểu số có độ entropy cao thúc đẩy việc học tăng cường hiệu quả cho lý luận LLM TLDR: trong RLVR giống như GRPO, bạn nên áp dụng tổn thất chỉ cho 20% token có độ entropy cao nhất. [1/7]