Aujourd’hui, chez @OpenAI, nous avons franchi une étape que beaucoup considéraient dans des années : une performance de niveau médaille d’or à l’OIM 2025 avec un raisonnement général LLM – dans les mêmes limites de temps que les humains, sans outils. Aussi remarquable que cela puisse paraître, c’est encore plus significatif que le titre 🧵
Alexander Wei
Alexander Wei19 juil. 2025
1/N Je suis ravi de partager que notre dernier raisonnement expérimental @OpenAI LLM a relevé un grand défi de longue date dans le domaine de l’IA : une performance de niveau médaille d’or lors de la compétition de mathématiques la plus prestigieuse au monde, l’Olympiade internationale de mathématiques (IMO).
Généralement, pour ces résultats d’IA, comme dans Go/Dota/Poker/Diplomacy, les chercheurs passent des années à créer une IA qui maîtrise un domaine étroit et ne fait pas grand-chose d’autre. Mais il ne s’agit pas d’un modèle spécifique à l’OMI. Il s’agit d’un LLM raisonnant qui intègre de nouvelles techniques expérimentales à usage général.
Alors, qu’est-ce qui est différent ? Nous avons développé de nouvelles techniques qui rendent les LLM beaucoup plus performants dans les tâches difficiles à vérifier. Les problèmes de l’OMI étaient le défi parfait pour cela : les épreuves font des pages et prennent des heures à noter par des experts. Comparez cela à AIME, où les réponses sont simplement un entier de 0 à 999.
De plus, ce modèle réfléchit pendant *longtemps*. O1 réfléchit quelques secondes. Recherche approfondie pendant quelques minutes. Celui-ci réfléchit pendant des heures. Il est important de noter qu’il est également plus efficace dans sa réflexion. Et il y a beaucoup de place pour pousser plus loin le calcul et l’efficacité en temps de test.
Noam Brown
Noam Brown13 sept. 2024
@OpenAI @rao2z @OpenAI's o1 thinks for seconds, but we aim for future versions to think for hours, days, even weeks. Inference costs will be higher, but what cost would you pay for a new cancer drug? For breakthrough batteries? For a proof of the Riemann Hypothesis? AI can be more than chatbots
Il vaut la peine de réfléchir à la rapidité avec laquelle l’IA a progressé, en particulier en mathématiques. En 2024, les laboratoires d’IA utilisaient les mathématiques de l’école primaire (GSM8K) comme valeur dans leurs versions. Depuis, nous avons saturé le niveau de référence MATH (du secondaire), puis AIME, et maintenant nous sommes à l’IMO or.
Où cela va-t-il ? Aussi rapide que soit le progrès récent de l'IA, je m'attends pleinement à ce que la tendance se poursuive. Il est important de noter que je pense que nous sommes proches de voir l'IA contribuer de manière substantielle à la découverte scientifique. Il y a une grande différence entre l'IA légèrement en dessous de la performance humaine maximale et légèrement au-dessus.
Il s’agissait d’un petit effort d’équipe dirigé par @alexwei_. Il a pris une idée de recherche à laquelle peu de gens croyaient et l’a utilisée pour obtenir un résultat que peu pensaient possible. Cela ne serait pas non plus possible sans des années de recherche + ingénierie de la part de nombreux @OpenAI et de la communauté de l’IA au sens large.
Lorsque vous travaillez dans un laboratoire de pointe, vous savez généralement où se trouvent les capacités de pointe des mois avant tout le monde. Mais ce résultat est tout à fait nouveau, utilisant des techniques récemment développées. Ce fut une surprise même pour de nombreux chercheurs d’OpenAI. Aujourd’hui, tout le monde peut voir où se trouve la frontière.
1,07M