Інтуїтивно легко зрозуміти, чому самостійна гра *може* працювати для LLM, якщо ми здатні забезпечити функцію значення на проміжних кроках (хоча і не так чітко гарантовано, як в іграх з нульовою сумою для двох гравців). У шахах / го / покері ми маємо нагороду, пов'язану з кожним наступним ходом, але, як зазначає Ноам, природна мова безладна. Важко визначити функцію цінності на проміжних етапах, як у токенах. В результаті, при звичайному навчанні з підкріпленням (наприклад, RLVR) LLM отримують винагороду в кінці. У підсумку вони вчаться більше «звиватися» для вирішення складних проблем. У певному сенсі ми винагороджуємо грубий форсс більшою кількістю токенів, щоб у підсумку отримати правильну відповідь як правильний підхід. Однак в @DeepCogito ми подаємо сигнал для самого процесу мислення. Концептуально ви можете уявити це як призначення винагороди за кращі траєкторії пошуку. Це вчить модель розвивати сильнішу інтуїцію щодо того, «як шукати» під час міркувань. На практиці модель закінчується значно коротшими ланцюжками міркувань для складніших задач у режимі міркування. Дещо дивно, але це також виявляється кращим у режимі без роздумів. Один із способів подумати про це полягає в тому, що оскільки модель вміє краще шукати, вона краще «вибирає» найбільш ймовірну траєкторію в режимі без роздумів.