ces traces de raisonnement m'ont tenu éveillé la nuit à gauche : nouveau modèle OpenAI qui a obtenu l'or IMO à droite : DeepSeek R1 sur un problème mathématique aléatoire vous devez réaliser que depuis l'année dernière, le monde académique a produit plus d'un MILLIER d'articles sur le raisonnement (probablement beaucoup plus). nous pensons pratiquement tous au raisonnement mais tous nos systèmes produisent des 'traces de pensée' qui ressemblent à DeepSeek à droite. elles sont incroyablement, horriblement verbeuses, brûlant des tokens à un rythme presque négligent. beaucoup de raisonnement est inutile et une partie est complètement incorrecte mais le raisonnement à gauche, cette nouvelle chose, est tout autre. clairement un changement de fonction étape. potentiellement une méthode complètement différente c'est tellement plus proche du *réel* raisonnement. aucun token n'est gaspillé. si quelque chose, c'est exceptionnellement concis ; je parierais que les solutions humaines sont plus verbeuses que cela clairement, quelque chose de très différent se passe. peut-être qu'OpenAI a développé un tout nouveau processus d'entraînement RLVR. peut-être qu'il y a une collecte de données spéciale auprès d'experts. peut-être qu'ils ont commencé à pénaliser le modèle pour avoir trop réfléchi d'une manière qui lui profite réellement d'une certaine manière des choses vraiment fascinantes... en général, cela me rend pessimiste sur le raisonnement de style R1
@marlboro_andres ouais, quelques-uns :
Alexander Wei
Alexander Wei19 juil. 2025
4/N Deuxièmement, les soumissions IMO sont des preuves multi-pages difficiles à vérifier. Les progrès ici nécessitent d'aller au-delà du paradigme RL des récompenses claires et vérifiables. Ce faisant, nous avons obtenu un modèle capable de créer des arguments complexes et solides au niveau des mathématiciens humains.
152,27K