DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

ces traces de raisonnement m'ont tenu éveillé la nuit à gauche : nouveau modèle OpenAI qui a obtenu l'or IMO à droite : DeepSeek R1 sur un problème mathématique aléatoire vous devez réaliser que depuis l'année dernière, le monde académique a produit plus d'un MILLIER d'articles sur le raisonnement (probablement beaucoup plus). nous pensons pratiquement tous au raisonnement mais tous nos systèmes produisent des 'traces de pensée' qui ressemblent à DeepSeek à droite. elles sont incroyablement, horriblement verbeuses, brûlant des tokens à un rythme presque négligent. beaucoup de raisonnement est inutile et une partie est complètement incorrecte mais le raisonnement à gauche, cette nouvelle chose, est tout autre. clairement un changement de fonction étape. potentiellement une méthode complètement différente c'est tellement plus proche du *réel* raisonnement. aucun token n'est gaspillé. si quelque chose, c'est exceptionnellement concis ; je parierais que les solutions humaines sont plus verbeuses que cela clairement, quelque chose de très différent se passe. peut-être qu'OpenAI a développé un tout nouveau processus d'entraînement RLVR. peut-être qu'il y a une collecte de données spéciale auprès d'experts. peut-être qu'ils ont commencé à pénaliser le modèle pour avoir trop réfléchi d'une manière qui lui profite réellement d'une certaine manière des choses vraiment fascinantes... en général, cela me rend pessimiste sur le raisonnement de style R1

@marlboro_andres ouais, quelques-uns :

152,27K

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables