esses rastros de raciocínio têm-me mantido acordado à noite à esquerda: novo modelo da OpenAI que obteve ouro IMO à direita: DeepSeek R1 em um problema matemático aleatório você precisa perceber que desde o ano passado a academia produziu mais de MIL artigos sobre raciocínio (provavelmente muito mais). estamos praticamente todos pensando sobre raciocínio mas todos os nossos sistemas produzem 'rastros de pensamento' que se parecem com o DeepSeek à direita. são incrivelmente, obnoxiosamente verbosos, queimando tokens a uma taxa quase negligente. muito do raciocínio é desnecessário e alguns estão completamente incorretos mas o raciocínio à esquerda, essa nova coisa, é algo completamente diferente. claramente uma mudança de função de passo. potencialmente um método diferente completamente está muito mais próximo do raciocínio *real*. nenhum token é desperdiçado. se acaso, é excepcionalmente conciso; eu diria que as soluções humanas são mais verbosas do que isso claramente algo muito diferente está acontecendo. talvez a OpenAI tenha desenvolvido um processo de treinamento RLVR completamente novo. talvez haja alguma coleta de dados especial de especialistas. talvez eles tenham começado a penalizar o modelo por pensar demais de uma maneira que realmente o beneficia de alguma forma coisas realmente fascinantes... em geral, isso me deixa pessimista em relação ao raciocínio no estilo R1
@marlboro_andres sim, alguns:
Alexander Wei
Alexander Wei19/07/2025
4/N Em segundo lugar, as submissões IMO são provas difíceis de verificar e com várias páginas. O progresso aqui exige ir além do paradigma RL de recompensas claras e verificáveis. Ao fazer isso, obtivemos um modelo que pode elaborar argumentos intrincados e à prova d'água ao nível de matemáticos humanos.
152,28K