Oggi, noi di @OpenAI raggiunto un traguardo che molti consideravano lontano anni: prestazioni a livello di medaglia d'oro all'IMO 2025 con un LLM di ragionamento generale, entro gli stessi limiti di tempo degli esseri umani, senza attrezzi. Per quanto possa sembrare straordinario, è ancora più significativo del titolo 🧵
Alexander Wei
Alexander Wei19 lug 2025
1/N Sono entusiasta di condividere che il nostro ultimo @OpenAI ragionamento sperimentale LLM ha raggiunto una grande sfida di lunga data nell'intelligenza artificiale: prestazioni a livello di medaglia d'oro nella competizione matematica più prestigiosa del mondo: le Olimpiadi internazionali di matematica (IMO).
Tipicamente, per questi risultati dell'IA, come in Go/Dota/Poker/Diplomacy, i ricercatori trascorrono anni a creare un'IA che padroneggia un dominio ristretto e fa poco altro. Ma questo non è un modello specifico per l'IMO. È un LLM di ragionamento che incorpora nuove tecniche generali sperimentali.
Qual è la differenza? Abbiamo sviluppato nuove tecniche che rendono i LLM molto migliori in compiti difficili da verificare. A mio avviso, i problemi erano la sfida perfetta per questo: le prove sono lunghe pagine e richiedono ore agli esperti per essere valutate. Confronta questo con l'AIME, dove le risposte sono semplicemente un intero da 0 a 999.
Anche questo modello pensa per un *lungo* periodo. o1 ha pensato per secondi. Deep Research per minuti. Questo pensa per ore. È importante notare che è anche più efficiente nel suo modo di pensare. E c'è molto margine per spingere ulteriormente il calcolo e l'efficienza durante il test.
Noam Brown
Noam Brown13 set 2024
@OpenAI @rao2z @OpenAI's o1 thinks for seconds, but we aim for future versions to think for hours, days, even weeks. Inference costs will be higher, but what cost would you pay for a new cancer drug? For breakthrough batteries? For a proof of the Riemann Hypothesis? AI can be more than chatbots
Vale la pena riflettere su quanto sia stata rapida l'evoluzione dell'IA, specialmente in matematica. Nel 2024, i laboratori di IA utilizzavano la matematica delle scuole elementari (GSM8K) come valutazione nelle loro versioni di modelli. Da allora, abbiamo saturato il benchmark MATH (scuole superiori), poi l'AIME, e ora siamo al livello oro dell'IMO.
Dove va a finire tutto questo? Per quanto rapida sia stata la recente evoluzione dell'IA, mi aspetto pienamente che la tendenza continui. È importante notare che siamo vicini a un contributo sostanziale dell'IA alla scoperta scientifica. C'è una grande differenza tra un'IA leggermente al di sotto delle migliori prestazioni umane e una leggermente al di sopra.
Questo è stato un piccolo lavoro di squadra guidato da @alexwei_. Ha preso un'idea di ricerca in cui pochi credevano e l'ha usata per ottenere un risultato che si pensava meno possibile. Anche questo non sarebbe possibile senza anni di ricerca+ingegneria da parte di molti in @OpenAI e della più ampia comunità dell'intelligenza artificiale.
Quando lavori in un laboratorio all'avanguardia, di solito sai dove si trovano le capacità di frontiera mesi prima di chiunque altro. Ma questo risultato è completamente nuovo, utilizzando tecniche recentemente sviluppate. È stata una sorpresa anche per molti ricercatori di OpenAI. Oggi, tutti possono vedere dove si trova la frontiera.
1,07M