Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
queste tracce di ragionamento mi tengono sveglio la notte
a sinistra: nuovo modello OpenAI che ha ottenuto l'oro IMO
a destra: DeepSeek R1 su un problema matematico casuale
devi renderti conto che dall'anno scorso l'accademia ha prodotto oltre un MIGLIAIO di articoli sul ragionamento (probabilmente molti di più). stiamo praticamente tutti pensando al ragionamento
ma tutti i nostri sistemi producono 'tracce di pensiero' che assomigliano a DeepSeek a destra. sono incredibilmente, obnoxiosamente verbosi, bruciando token a un ritmo quasi negligente. gran parte del ragionamento è superfluo e alcuni di essi sono completamente errati
ma il ragionamento a sinistra, questa nuova cosa, è qualcosa di completamente diverso. chiaramente un cambiamento a funzione a gradini. potenzialmente un metodo completamente diverso
è molto più vicino al *vero* ragionamento. nessun token viene sprecato. se mai, è eccezionalmente conciso; scommetterei che le soluzioni umane sono più verbose di questo
chiaramente sta succedendo qualcosa di molto diverso. forse OpenAI ha sviluppato un processo di addestramento RLVR completamente nuovo. forse c'è qualche raccolta di dati speciale da esperti. forse hanno iniziato a penalizzare il modello per il pensiero eccessivo in un modo che in qualche modo gli giova
cose davvero affascinanti... in generale questo mi rende ribassista sul ragionamento in stile R1


@marlboro_andres sì, alcuni:

19 lug 2025
4/N In secondo luogo, le sottomissioni IMO sono prove difficili da verificare e articolate su più pagine. I progressi qui richiedono di andare oltre il paradigma RL di ricompense chiare e verificabili. Facendo ciò, abbiamo ottenuto un modello in grado di elaborare argomentazioni complesse e inoppugnabili al livello dei matematici umani.




152,27K
Principali
Ranking
Preferiti