Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Esses traços de raciocínio têm me mantido acordado à noite
à esquerda: novo modelo OpenAI que recebeu ouro IMO
à direita: DeepSeek R1 em um problema matemático aleatório
você precisa perceber que, desde o ano passado, a academia produziu mais de MIL artigos sobre raciocínio (provavelmente muito mais). estamos praticamente todos pensando em raciocínio
mas todos os nossos sistemas produzem 'traços de pensamento' que se parecem com o DeepSeek à direita. eles são incrivelmente e irritantemente prolixos, queimando tokens a uma taxa quase negligente. Muito do raciocínio é desnecessário e parte dele é completamente incorreto
Mas o raciocínio da esquerda, essa coisa nova, é algo completamente diferente. claramente uma mudança de função de etapa. potencialmente um método totalmente diferente
é muito mais próximo do raciocínio *real*. nenhum token é desperdiçado. se alguma coisa, é excepcionalmente conciso; Eu acho que as soluções humanas são mais detalhadas do que isso
claramente algo muito diferente está acontecendo. talvez a OpenAI tenha desenvolvido um processo de treinamento RLVR completamente novo. Talvez haja alguma coleta de dados especial de especialistas. Talvez eles tenham começado a penalizar o modelo por pensar demais de uma forma que realmente o beneficie de alguma forma
coisas realmente fascinantes ... em geral, isso me deixa pessimista no raciocínio do estilo R1


@marlboro_andres sim, alguns:

19 de jul. de 2025
4 / N Em segundo lugar, as submissões da IMO são provas difíceis de verificar, com várias páginas. O progresso aqui exige ir além do paradigma RL de recompensas claras e verificáveis. Ao fazer isso, obtivemos um modelo que pode criar argumentos intrincados e estanques no nível dos matemáticos humanos.




152,28K
Melhores
Classificação
Favoritos