Статья NeurIPS 2025 от команды Qwen: За пределами правила 80/20: токены меньшинства с высокой энтропией способствуют эффективному обучению с подкреплением для рассуждений LLM Кратко: в RLVR, подобном GRPO, вы должны применять потерю только к 20% токенов с наивысшей энтропией. [1/7]