Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ces traces de raisonnement m'ont tenu éveillé la nuit
à gauche : nouveau modèle OpenAI qui a obtenu l'or IMO
à droite : DeepSeek R1 sur un problème mathématique aléatoire
vous devez réaliser que depuis l'année dernière, le monde académique a produit plus d'un MILLIER d'articles sur le raisonnement (probablement beaucoup plus). nous pensons pratiquement tous au raisonnement
mais tous nos systèmes produisent des 'traces de pensée' qui ressemblent à DeepSeek à droite. elles sont incroyablement, horriblement verbeuses, brûlant des tokens à un rythme presque négligent. beaucoup de raisonnement est inutile et une partie est complètement incorrecte
mais le raisonnement à gauche, cette nouvelle chose, est tout autre. clairement un changement de fonction étape. potentiellement une méthode complètement différente
c'est tellement plus proche du *réel* raisonnement. aucun token n'est gaspillé. si quelque chose, c'est exceptionnellement concis ; je parierais que les solutions humaines sont plus verbeuses que cela
clairement, quelque chose de très différent se passe. peut-être qu'OpenAI a développé un tout nouveau processus d'entraînement RLVR. peut-être qu'il y a une collecte de données spéciale auprès d'experts. peut-être qu'ils ont commencé à pénaliser le modèle pour avoir trop réfléchi d'une manière qui lui profite réellement d'une certaine manière
des choses vraiment fascinantes... en général, cela me rend pessimiste sur le raisonnement de style R1


@marlboro_andres ouais, quelques-uns :

19 juil. 2025
4/N Deuxièmement, les soumissions IMO sont des preuves multi-pages difficiles à vérifier. Les progrès ici nécessitent d'aller au-delà du paradigme RL des récompenses claires et vérifiables. Ce faisant, nous avons obtenu un modèle capable de créer des arguments complexes et solides au niveau des mathématiciens humains.




152,27K
Meilleurs
Classement
Favoris