queste tracce di ragionamento mi tengono sveglio la notte a sinistra: nuovo modello OpenAI che ha ottenuto l'oro IMO a destra: DeepSeek R1 su un problema matematico casuale devi renderti conto che dall'anno scorso l'accademia ha prodotto oltre un MIGLIAIO di articoli sul ragionamento (probabilmente molti di più). stiamo praticamente tutti pensando al ragionamento ma tutti i nostri sistemi producono 'tracce di pensiero' che assomigliano a DeepSeek a destra. sono incredibilmente, obnoxiosamente verbosi, bruciando token a un ritmo quasi negligente. gran parte del ragionamento è superfluo e alcuni di essi sono completamente errati ma il ragionamento a sinistra, questa nuova cosa, è qualcosa di completamente diverso. chiaramente un cambiamento a funzione a gradini. potenzialmente un metodo completamente diverso è molto più vicino al *vero* ragionamento. nessun token viene sprecato. se mai, è eccezionalmente conciso; scommetterei che le soluzioni umane sono più verbose di questo chiaramente sta succedendo qualcosa di molto diverso. forse OpenAI ha sviluppato un processo di addestramento RLVR completamente nuovo. forse c'è qualche raccolta di dati speciale da esperti. forse hanno iniziato a penalizzare il modello per il pensiero eccessivo in un modo che in qualche modo gli giova cose davvero affascinanti... in generale questo mi rende ribassista sul ragionamento in stile R1
@marlboro_andres sì, alcuni:
Alexander Wei
Alexander Wei19 lug 2025
4/N In secondo luogo, le sottomissioni IMO sono prove difficili da verificare e articolate su più pagine. I progressi qui richiedono di andare oltre il paradigma RL di ricompense chiare e verificabili. Facendo ciò, abbiamo ottenuto un modello in grado di elaborare argomentazioni complesse e inoppugnabili al livello dei matematici umani.
152,27K