QwenチームによるNeurIPS 2025論文: 80/20法則を超えて:高エントロピーの少数派トークンがLLM推論における効果的な強化学習を推進する 要約:GRPOのようなRLVRでは、損失はエントロピーが最も高い20%のトークンにのみ適用すべきです。[1/7]