Rendimiento a nivel de medalla de oro en la Olimpiada Internacional de Matemáticas 2025 de nuestro último LLM de razonamiento experimental. Modelo operado en lenguaje natural (es decir, genera pruebas de lenguaje natural) bajo las mismas reglas que los humanos (por ejemplo, 4,5 horas por sesión, sin herramientas). ¡Increíble hito!
Alexander Wei
Alexander Wei19 jul 2025
1/N Me complace compartir que nuestro último @OpenAI LLM de razonamiento experimental ha logrado un gran desafío de larga data en IA: el rendimiento a nivel de medalla de oro en la competencia de matemáticas más prestigiosa del mundo: la Olimpiada Internacional de Matemáticas (IMO).
Lo más notable es que este sistema utiliza un enfoque muy general, utilizando el aprendizaje por refuerzo y el escalado del cálculo del tiempo de prueba:
Alexander Wei
Alexander Wei19 jul 2025
5/N Besides the result itself, I am excited about our approach: We reach this capability level not via narrow, task-specific methodology, but by breaking new ground in general-purpose reinforcement learning and test-time compute scaling.
122.13K