Esses traços de raciocínio têm me mantido acordado à noite à esquerda: novo modelo OpenAI que recebeu ouro IMO à direita: DeepSeek R1 em um problema matemático aleatório você precisa perceber que, desde o ano passado, a academia produziu mais de MIL artigos sobre raciocínio (provavelmente muito mais). estamos praticamente todos pensando em raciocínio mas todos os nossos sistemas produzem 'traços de pensamento' que se parecem com o DeepSeek à direita. eles são incrivelmente e irritantemente prolixos, queimando tokens a uma taxa quase negligente. Muito do raciocínio é desnecessário e parte dele é completamente incorreto Mas o raciocínio da esquerda, essa coisa nova, é algo completamente diferente. claramente uma mudança de função de etapa. potencialmente um método totalmente diferente é muito mais próximo do raciocínio *real*. nenhum token é desperdiçado. se alguma coisa, é excepcionalmente conciso; Eu acho que as soluções humanas são mais detalhadas do que isso claramente algo muito diferente está acontecendo. talvez a OpenAI tenha desenvolvido um processo de treinamento RLVR completamente novo. Talvez haja alguma coleta de dados especial de especialistas. Talvez eles tenham começado a penalizar o modelo por pensar demais de uma forma que realmente o beneficie de alguma forma coisas realmente fascinantes ... em geral, isso me deixa pessimista no raciocínio do estilo R1
@marlboro_andres sim, alguns:
Alexander Wei
Alexander Wei19 de jul. de 2025
4 / N Em segundo lugar, as submissões da IMO são provas difíceis de verificar, com várias páginas. O progresso aqui exige ir além do paradigma RL de recompensas claras e verificáveis. Ao fazer isso, obtivemos um modelo que pode criar argumentos intrincados e estanques no nível dos matemáticos humanos.
152,28K