Nem Mesmo Bronze: Avaliando LLMs na Olimpíada Internacional de Matemática de 2025 🥉 Bom post de blog da equipe por trás do MathArena: Avaliando LLMs em Competições de Matemática Não Contaminadas () fornecendo uma análise independente do desempenho dos LLMs no IMO.
Parece que uma versão avançada do Gemini com Deep Think acabou de resolver 5 dos 6 problemas IMO, ganhando 35 pontos totais, e oficialmente alcançando o nível de desempenho de medalha de ouro. Parabéns pela conquista @lmthang❗️ mal posso esperar para jogar com este modelo
42,75K