Es ist intuitiv leicht zu verstehen, warum Selbstspiel *funktionieren kann* für LLMs, wenn wir in der Lage sind, eine Wertfunktion in den Zwischenschritten bereitzustellen (obwohl nicht so klar garantiert wie in Zwei-Spieler Nullsummenspielen). Im Schach / Go / Poker haben wir eine Belohnung, die mit jedem nächsten Zug verbunden ist, aber wie Noam anmerkt, ist natürliche Sprache unordentlich. Es ist schwierig, eine Wertfunktion in Zwischenschritten wie Tokens zu definieren. Infolgedessen erhalten LLMs im üblichen Reinforcement Learning (wie RLVR) eine Belohnung am Ende. Sie lernen, für schwierige Probleme mehr zu 'meandern'. In gewisser Weise belohnen wir das brutale Durchforsten mit mehr Tokens, um schließlich zur richtigen Antwort zu gelangen, als den richtigen Ansatz. Bei @DeepCogito bieten wir jedoch ein Signal für den Denkprozess selbst. Konzeptuell kann man sich das als nachträgliche Zuweisung einer Belohnung für bessere Suchtrajektorien vorstellen. Dies lehrt das Modell, ein stärkeres Gespür dafür zu entwickeln, 'wie man sucht', während es schlussfolgert. In der Praxis hat das Modell deutlich kürzere Denkketten für schwierigere Probleme im Denkmodus. Überraschenderweise ist es auch im Nicht-Denkmodus besser. Eine Möglichkeit, darüber nachzudenken, ist, dass das Modell, da es besser suchen kann, die wahrscheinlichste Trajektorie im Nicht-Denkmodus besser 'wählt'.