¡Rendimiento de nivel medalla de oro en la Olimpiada Internacional de Matemáticas 2025 de nuestro último LLM de razonamiento experimental! El modelo operó en lenguaje natural (es decir, produce pruebas en lenguaje natural) bajo las mismas reglas que los humanos (por ejemplo, 4.5 horas por sesión, sin herramientas). ¡Hito increíble!
Alexander Wei
Alexander Wei19 jul 2025
1/N Me complace compartir que nuestro último @OpenAI LLM de razonamiento experimental ha logrado un gran desafío de larga data en IA: el rendimiento a nivel de medalla de oro en la competencia de matemáticas más prestigiosa del mundo: la Olimpiada Internacional de Matemáticas (IMO).
Lo más notable es que este sistema utiliza un enfoque muy general, utilizando aprendizaje por refuerzo y escalado del tiempo de cómputo de prueba:
Alexander Wei
Alexander Wei19 jul 2025
5/N Besides the result itself, I am excited about our approach: We reach this capability level not via narrow, task-specific methodology, but by breaking new ground in general-purpose reinforcement learning and test-time compute scaling.
122,13K