Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
esses rastros de raciocínio têm-me mantido acordado à noite
à esquerda: novo modelo da OpenAI que obteve ouro IMO
à direita: DeepSeek R1 em um problema matemático aleatório
você precisa perceber que desde o ano passado a academia produziu mais de MIL artigos sobre raciocínio (provavelmente muito mais). estamos praticamente todos pensando sobre raciocínio
mas todos os nossos sistemas produzem 'rastros de pensamento' que se parecem com o DeepSeek à direita. são incrivelmente, obnoxiosamente verbosos, queimando tokens a uma taxa quase negligente. muito do raciocínio é desnecessário e alguns estão completamente incorretos
mas o raciocínio à esquerda, essa nova coisa, é algo completamente diferente. claramente uma mudança de função de passo. potencialmente um método diferente completamente
está muito mais próximo do raciocínio *real*. nenhum token é desperdiçado. se acaso, é excepcionalmente conciso; eu diria que as soluções humanas são mais verbosas do que isso
claramente algo muito diferente está acontecendo. talvez a OpenAI tenha desenvolvido um processo de treinamento RLVR completamente novo. talvez haja alguma coleta de dados especial de especialistas. talvez eles tenham começado a penalizar o modelo por pensar demais de uma maneira que realmente o beneficia de alguma forma
coisas realmente fascinantes... em geral, isso me deixa pessimista em relação ao raciocínio no estilo R1


@marlboro_andres sim, alguns:

19/07/2025
4/N Em segundo lugar, as submissões IMO são provas difíceis de verificar e com várias páginas. O progresso aqui exige ir além do paradigma RL de recompensas claras e verificáveis. Ao fazer isso, obtivemos um modelo que pode elaborar argumentos intrincados e à prova d'água ao nível de matemáticos humanos.




152,28K
Top
Classificação
Favoritos