diese Denkspuren halten mich nachts wach links: neues OpenAI-Modell, das IMO Gold erhalten hat rechts: DeepSeek R1 bei einem zufälligen Mathematikproblem du musst dir bewusst werden, dass die Akademie seit letztem Jahr über TAUSEND Arbeiten zum Thema Denken produziert hat (wahrscheinlich noch viel mehr). Wir denken praktisch alle über Denken nach aber all unsere Systeme produzieren 'Denkspuren', die wie DeepSeek auf der rechten Seite aussehen. Sie sind unglaublich, unerträglich ausführlich und verbrauchen Tokens in einem grenzwertig nachlässigen Tempo. Ein Großteil des Denkens ist unnötig und einiges davon ist völlig falsch aber das Denken auf der linken Seite, dieses neue Ding, ist etwas ganz anderes. Offensichtlich eine sprunghafte Veränderung. Potenziell eine ganz andere Methode es ist so viel näher am *tatsächlichen* Denken. Keine Tokens werden verschwendet. Wenn überhaupt, ist es außergewöhnlich prägnant; ich würde schätzen, dass menschliche Lösungen ausführlicher sind als dies offensichtlich passiert hier etwas ganz anderes. Vielleicht hat OpenAI einen völlig neuen RLVR-Trainingsprozess entwickelt. Vielleicht gibt es eine spezielle Datensammlung von Experten. Vielleicht haben sie begonnen, das Modell für übermäßiges Nachdenken zu bestrafen, auf eine Weise, die ihm tatsächlich irgendwie zugutekommt wirklich faszinierende Sachen... im Allgemeinen macht mich das bearish gegenüber dem R1-Stil des Denkens
@marlboro_andres ja, ein paar:
Alexander Wei
Alexander Wei19. Juli 2025
4/N Zweitens sind IMO-Einreichungen schwer zu verifizieren und bestehen aus mehreren Seiten Beweisen. Fortschritte hier erfordern, über das RL-Paradigma von klaren, verifizierbaren Belohnungen hinauszugehen. Dadurch haben wir ein Modell erhalten, das in der Lage ist, komplexe, wasserdichte Argumente auf dem Niveau menschlicher Mathematiker zu formulieren.
152,28K